­
­

Путевой камень. Беседы

топ 100 блогов snormer23.09.2023

Обязана быть ещё третья дорожка. Есть, по ней сейчас направляется DALL-E.

Откуда вообще возникла необходимость использовать ControlNet в SD и «думанье за пользователя» в MJ? Те, кто работает с первыми рисовалкам, знает: они промптом управляются, а не разговаривают. Бесполезно писать просьбы и подробно описывать композицию, нейронка поймёт дай бог половину. Набор тегов и управляющих слов через запятую работает много надёжнее.

А почему? Вот ChatGPT сносно понимает речь даже с опечатками, в чём тут проблема? Да просто исторически: первые рисовалки больше заботились именно о рисовании, а за анализ промпта отвечал небольшой готовый энкодер CLIP, уже натасканый на LAION. Других и не было. MJ использовал что-то аналогичного размера. Такой небольшой нейронки и  хватало только на довольно простенькую разметку промпта.

Уже XL заметно прибавила в «уме», она способна понимать длинные промпты написанные почти натуральным языком и концепции оружия и инструментов. Только потому, что в пару к старому добавили ещё один, большой OpenCLIP.

Но возвращаясь к ChatGPT. Он на пару порядков больше CLIPов и способен понять тонкие нюансы промпта и упаковать это всё в вектор. Более того, он тренировался как мультимодальный и способен принимать картинки на вход. Что будет, если использовать его или аналог?

Встречайте DALL-E 3, где за энкодинг промпта отвечает большая языковая модель. Благодаря этому, можно описывать картинку в мелких деталях, включая композицию и взаимное расположение элементов.

Путевой камень. Беседы

Также «мощности» внутренней размерности и блоков внимания тут хватает, чтобы упаковать в эмбеддинг вагон предметов и персонажей (SD 1.5 с трудом справляется с тремя):

Можно проверить, если хватит терпения.
Можно проверить, если хватит терпения.

Причём не обязательно «в статике»: тут все эти предметы попросили погрузить на серфера

Тяжело
Тяжело

Также просто происходит смена стиля, добавка и удаление персонажей и предметов.

При этом качество самих картинок пока заметно хуже того, что выдают MJ и SD. Но возможность полноценно управлять через промпт, натурально разговаривая с нейронкой, подкупает. Вот только привязка к ChatGPT намертво...

Оставить комментарий

Предыдущие записи блогера :
Архив записей в блогах:
Drivers drag climate protesters from Brisbane motorway after third day of traffic mayhem | 7NEWS - YouTube На видео дура, прикованная к машинам, возмущается, мол, водители фур обижают её друзей! То есть, эти "защитники климата" уже сбились в свои банды и обособились от ...
Есть явный признак того, что разогретый рынок жилья может охладеть. Перевод в субтитрах: Текстовая версия видео: Во многих частях страны наблюдается стремительный рост цен на жильё. Согласно индексу цен на жилье 20 крупных городов, в марте он повысился на 13.3% в годовом ...
12 октября этого года, небольшой посёлок недалеко от Новороссийска с очень известным географическим наименованием :) Конечно, это Абрау-Дюрсо! Для меня почему-то оказалось ...
- Мам! А чё ты делаешь? - Играюсь, сыночка, играюсь. - Пап, а я на ручки хочу! И с вершины лет своих мы на вас посмотрим. Шушкин, миленький! Ну почему ты такая грустная? :( Один глазик спит, второй за окружающим следит. И лапка под щёчкой, как в ...
это шарф, который я не купила в свой первый "слинго-срок" (когда он был,кхм, по-доступнее), а потом долго голодала-скиталась... потом мне дали поносить, со словами "может поможет приманить", и правда - помогло. около месяца назад я стала хозяйкой прекрасного летнего памира 2011 года ;P ...