Путевой камень. Беседы

Обязана быть ещё третья дорожка. Есть, по ней сейчас
направляется DALL-E.
Откуда вообще возникла необходимость использовать ControlNet в
SD и «думанье за пользователя» в MJ? Те, кто работает с первыми
рисовалкам, знает: они промптом управляются, а не разговаривают.
Бесполезно писать просьбы и подробно описывать композицию, нейронка
поймёт дай бог половину. Набор тегов и управляющих слов через
запятую работает много надёжнее.
А почему? Вот ChatGPT сносно понимает речь даже с опечатками, в чём
тут проблема? Да просто исторически: первые рисовалки больше
заботились именно о рисовании, а за анализ промпта отвечал
небольшой готовый энкодер CLIP, уже натасканый на LAION. Других и
не было. MJ использовал что-то аналогичного размера. Такой
небольшой нейронки и хватало только на довольно простенькую
разметку промпта.
Уже XL заметно прибавила в «уме», она способна понимать длинные
промпты написанные почти натуральным языком и концепции оружия и
инструментов. Только потому, что в пару к старому добавили ещё
один, большой OpenCLIP.
Но возвращаясь к ChatGPT. Он на пару порядков больше CLIPов и
способен понять тонкие нюансы промпта и упаковать это всё в вектор.
Более того, он тренировался как мультимодальный и способен
принимать картинки на вход. Что будет, если использовать его или
аналог?
Встречайте DALL-E 3, где за энкодинг промпта отвечает большая
языковая модель. Благодаря этому, можно описывать картинку в мелких
деталях, включая композицию и взаимное расположение элементов.

Также «мощности» внутренней размерности и блоков внимания тут
хватает, чтобы упаковать в эмбеддинг вагон предметов и персонажей
(SD 1.5 с трудом справляется с тремя):

Причём не обязательно «в статике»: тут все эти предметы
попросили погрузить на серфера

Также просто происходит смена стиля, добавка и удаление
персонажей и предметов.
При этом качество самих картинок пока заметно хуже того, что выдают
MJ и SD. Но возможность полноценно управлять через промпт,
натурально разговаривая с нейронкой, подкупает. Вот только привязка
к ChatGPT намертво...
|
</> |