Коты и елки и игрушки
kvisaz — 10.12.2023Лабораторная работа с генерацией котов и новогоднего украшения - для иллюстрации, каково это - ловить ускользающий образ косплеерши из головы в бесконечном лабиринте нейронки.
Все картинки кликабельны, большинство по дефолту шириной по 600 пикселов для удобства просмотра, но по клику откроется разршение с шириной больше 1000 пикселов
Запускаю стандартный Fooocus
с настройками по дефолту, ставлю скорость Extra Speed. Качество там
не сказать чтобы заметно страшнее, там просто в принципе другие
алгоритмы синтеза, которые делают картинку быстрее. Поэтому выбираю
этот режим, чтобы улучшить качество жизни во время этой
лабораторной работы.
Запускаю генерацию без какого-либо текста. Что ожидается увидеть,
если кинуть рисовальной нейронке пустой промпт? По некоторым
гипотезам - нечто самое общее из того, что она научилась рисовать,
плюс случайный выбор из триллионов вариантов.
Fooocus даже к пустому промпту добавляет какие-то слова,
определяющие стиль изображения - поэтому получается нечто общее в
этом стиле.
Мне выпала комбинация под номером 6146478239344605728 (и 9) - два
мужика, один из которых подозрительно смахивает на Джона Сноу.
Я отключаю рандом, чтобы и дальше работать с этим числом.
6146478239344605728 - это seed, который позволяет повторять
картинку с такими же настройками, и чего в явном виде лишены
пользователи Midjourney и Dall-e.
Теперь просто ввожу слово cat. Сменились мужики на котов. Все
остальное тоже поменялось, поскольку я не описывал ничего больше,
нейронка как-то выбирала сама. Есть подозрение что в обучающем
фотосете с дефолтными стилями Foooocus лежало очень много
портретных фотографий. Мужики, коты, Трисс
Меригольд и Цири
из Цинтры - все они по дефолту получаются почти всегда
погрудными портретами.
Возможно, погрудные портреты - это вообще доминирующая форма в
фотографиях. Но неважно.
Хорошо, это были опытные образцы, которые необходимы для сравнения.
Теперь я
- беру бесплатное фото кота с freepik
- кликаю в Fooocus на галочке Image Prompt
- открываю там среднюю вкладку - собственно Image Prompt
- засовываю туда кота-образец
- что удобно, в Chrome можно просто перетащить картинку между
вкладками браузера и не скачивая ее сразу закинуть в Fooocus
- убираю какой-либо текст и жму Generate
Выводы?
Image Prompt помог
- сделать раскраску похожей
- полностью отобразить кота - с ручками и хвостом
Похожим образом я вымаливал у нейронки фото Цири хотя бы по колено
- засовывал аниме-тян, стоящую в полный рост.
Image Prompt имеет два регулятора силы - по умолчанию оба стоят на
0.5.
Вот что будет, если сбросить все регуляторы в 0 - тот самый мужик,
которого нейронка рисует при пустом промпте
А вот что будет при установке обоих регуляторов силы Image Prompt в
1
Вырождение. Не копирование. Цвет котенка попытался захватить все.
Анатомия с проклятьями приказала нам... Хотя и таких котят мы
видели, и таких любят.
Если добавить слово cat - ситуация с максимально выкрученной силой
Image Prompt не улучшится. Хотя картинка незначительно изменится.
Конкретно - чуть изменится гримаса кота.
Поэтому регуляторы силы я в дальнейшем оставляю на 0.5, ну максимум
может поменяю на 0.6-0.7, особенно во вторичных картинках
Беру с freepik новогоднюю картинку для открыток, и кладу ее в Image
Prompt после кота (всего может быть до 4 картинок)
При пустом промпте - будет просто вариация второй картинки.
Поверьте, не буду уже спамить фото. Кот исчез. Надо возвращать.
Ставлю слово cat. Кот появился, а фона нет.
Надо описать картинку в целом. Cat, cristmas tree
Update ======================
Я забыл сделать контрольный снимок без Image Prompt
Что я могу сказать - влияние дерева с игрушкой в референсах было
минимальным, кристмас три генерился примерно и так
Это расстраивает
====================
Увеличил вес открытки в Image Prompt до 0.788
Ая-яй, где же кот.
А вот же он. Убежал, спрятался во всепобеждающую игрушку.
Опытным путем установлено, что игра с параметрами и этим же
промптом в лучшем случае генерирует кота, сидящего в новогодней
елке.
Ну в принципе, неплохо. Можно просто включить рандомный перебор и
нагенерить котиков. Или поменять режим на Quality и тоже включить
рандомный перебор.
Этот же кот из второго варианта в режиме Quality. Этому режиму
больше нравится кот, чем елка.
Я включаю рандомный перебор генераций на 16 вариантов, ухожу пить
чай.
Перебор в рисовальной нейронке - это, мама, такой тормозной лифт в
ад, в котором на счетчике этажей может мелькать "200 генераций....
700 генераций", а человек будет чувствовать что он все дальше и
дальше от благодати, от незримого образа, который он держит в
голове.
Но с котами и елками я решил расслабиться и не держать четкий образ
в голове. Представим себе, что вы не видите, какую я композицию
хочу получить. Ясен пень, не видите, но по референсу с одинокой
игрушкой можно догадаться, что я хотел именно такой бэкграунд.
Нет, за таким точным копированием нужно идти в другие технологии.
Попробую чуть позже.
Пока же вот, результат "лабораторки" в Quality режиме
- простой текстовый промпт "cat, cristmas tree"
- кот похожего типажа в Image Prompt
- бэкграунд похожего типажа в Image Prompt
Напоследок я решил
- вернуться к комбинации 6146478239344605728 (seed)
- заказать текстовый промпт у ChatGPT - кинул туда фотографию с
одинокой елочной игрушкой и попросил составить промпт, чтобы там
еще и кот сидел.
============
A close-up image of a decorative Christmas ornament hanging from a
tree branch, featuring a globe with intricate blue, white, and red
patterns with gold accents, tied with a red ribbon. On the right
side, a curious cat with soft, fluffy fur is peeking out, partially
behind the branch, its eyes fixed on the ornament. The background
has a beautiful bokeh effect from twinkling lights, creating a
warm, festive atmosphere.
```
Ну, шо, сынку, как говорят у нас в Таганроге, помогли тебе твои
чат-нейронки?
Ну, определенно помогли же - деталировка кота на игрушке стала
лучше. Да, рисовалка тупо наплевала на слова старшего по интеллекту
братика и продолжила совмещать референсы, как ей нравится.
Но виде, что даже в режиме Extra Speed (а я к нему вернулся) -
деталировка игрушки стала намного лучше, как живая. Все-таки длина
промпта решает, если там есть слова по делу - растут дополнительные
детали, может улучшиться качество прорисовки.
Последний рисунок в режиме Quality
=================
А вот вам еще игрушечек из рандомной генерации, выбирал из 16
вариантов
Иногда коты исчезают
Иногда прорастают в неожиданных комбинациях. Эта комбинация - еще
хорошая
============
На этом я остановлюсь. из данной работы очевидно -
- влияние Image Prompt есть
- Image Prompt может приблизить рандомную форму к образцу по форме,
по текстуре
- два Image Prompt сражаются, если не давать текстовый промпт,
соотносящийся с каким-то из них - этот бедолага исчезнет,
останется, возможно, только один. Нужно больше лабораторок.
- текстовый промпт по-прежнему оказывает громадное влияние
- текстовые промпты от GPT4 бессильны для сложных композиций, но
добавляют прорисовку
Update
- Я забыл сделать контрольный снимок без Image Prompt
Что я могу сказать - влияние дерева с игрушкой в референсах было
минимальным, кристмас три генерился примерно и так
Это расстраивает.
Похоже, что второй Image Prompt сильно съедается обычной манерой
рисования, а при увеличении его силы - просто приводит к мутации
всей картинки в елку с единственной игрушкой, что и происходило с
котами. В любом случае, влияние второго Image Prompt ненулевое и
оправдано
Время затрачено - 1 час 10 минут, еще минут 15 уйдет на отправку
статьи в ЖЖ
Писал сразу в [Obsidian](https://obsidian.md/), вставлял
скриншоты, чтобы сократить время монтажа.
Фокусировался на простой цели - проверить влияние простых, ясных
картинок-референсов в Image Prompt и предельно простых текстовых
промптов в Fooocus с настройками по дефолту на 10 декабря 2023
года
Это
Styles: **['Fooocus V2', 'Fooocus Enhance', 'Fooocus
Sharp']**, Performance: **Quality** / Extra Speed
Base Model: **juggernautXL_version6Rundiffusion.safetensors**,
Refiner Model: **None**
Очевидно, что это и наука, и искусство.
|
</> |