Первый день с домашним Stable Diffusion

Уроки первого дня с домашним Stable Diffusion и его клонами (моделями, обученными на специфические задачи):
0. Да, модель имеет значение, но даже специализированная модель просто так не отдаст шедевр. С пустым запросом (промптом) все модели генерируют сиреневый или серый туман. Нужно заклинание. Некоторые заклинания сильнее остальных.
1. Пожалуй, самое важное в заклинании, что я бы советовал новичку и что сам охотно использую сейчас - это стиль. То есть словесное описание общей характеристики картины. Моя первая находка... ну как находка, конечно же, я подрезал ее у других - это
'Matte Painting, soft light, pastel colors, cozy atmosphere'.
Изначально она была в примере с какими-то завтраками, но я обнаружил, что добавление этого хвоста к любой описательной части генерирует достойную (на мой взгляд дилетанта) иллюстрацию. На любой модели! Даже на порно-моделях, даже с запросами типа Doom Slayer или "битва ведьм и демонов в средневековой таверне" это заклинание, которое я обозвал как 'Matte breakfast', добавляет свой шарм.
К примеру, 'nice girl looking, cup of coffee, on street' становится из фотореализма таким

2. Второй прием, что я бы советовал новичку - как можно быстрее обратить внимание на вкладку img2img. Это мутатор, стилизатор, миксер, волшебник, ксерокс для композиции. Он позволяет взять за основу одну картинку и накладывать на нее генерации из промпта с заданной степенью слияния.
Я закинул предыдущую картинку и добавил 'in space' в заклинание. Ах да, я забыл сказать - девушка изначально была с пивом. Это я уже тут поменял его на кофе в тексте.

За каждый запуск Img2Img генерит из промпта N новых вариантов (параметр Batch count/Batch size, я пользуюсь пока только первым), смешивает их с исходником со степенью Denoising Strength, где
- 0 оригинал остается
- 0.25 оригинал начинает получать слабую стилизацию
- 0.5 попытка смешать оригинал и новую генерацию в равных пропорциях, при сильном расхождении будет разрыв композиции, неприглядная мутация, долина отвращения и смерти
- 0.75 новый вариант побеждает, от оригинала остается слабая стилизация
- 1 полностью новый вариант, практически аналог обычного режима text2img
У меня было 8 вариантов, я использовал право на безвкусицу и выбрал этот. Как видите, Img2Img сохранил базовую композицию. Когда промпт исходника и новых вариаций близки, такое происходит часто. Тяжело совмещать только совершенно разные идеи.

Img2Img - это идеальный на данный момент мутатор, чтобы довести вариант до нужной кондиции. К примеру, я запросил Doom Slayer (героя игры Doom) со стилем 'Matte breakfast', который сохранил ранее (и описан выше).

вВыбрал из 8 вариантов этот за наибольшую живость, похожесть и меньшее число артефактов. Слова в промпте влияют на все предметы, поэтому Doom Slayer получил средневековую броню. Закинул его в мутатор. Промпт менялся незначительно, я просто хотел перебрать варианты, поэтому поставил силу смешивания в 0.5 (Denoising Strength)

После нескольких мутаций выпала комбинация без шлема и с дополнительным человеком в таверне. Оставил. Пальцы... Ну что пальцы! Господа, перед нами ветеран бесконечных войн, с сильными жилистыми шрамированными конечностями, с бесконечным числом возрождений и регенераций. Другие мужики на его месте выглядели бы не лучше с 50 HP. Дайте спокойно попить пиво!

Все это я гонял на модели Protogen Anime 2.2
Как видите, текстовый запрос перешибает основной стиль модели как соплю. Точнее, надо говорить так - Стиль модели помогает сильнее раскрыться некоторым промптам.
Порно-модели хорошо раскрывают порно-запросы и могут генерировать бесстыжие позы с анатомической корректностью (не всегда). Аниме-модели богаче раскрывают аниме-заклинания. Все они могут рисовать в разном стиле, как и живые художники - искусствоведы подтвердят!
Просто запрос 'My Little Pony Friendship is Magic' + стиль 'Breakfast Matte', описанный выше, генерирует пони в таком стиле

без этого стиля те же пони, тот же 'My Little Pony Friendship is Magic' выглядит так

Я выбрал вот эту лошадку, поскольку меня никто не мог остановить в этом

И попробовал ее скрестить с Doom Slayer. Даже с использованием общего стиля на силе смешивания 0.5 возник разрыв композиции. Не удалось совместить коня и ветерана!

Тогда я установил силу смешивания на 0.25 и возникла легкая стилизация

Прогнал раз 4 или 6 на 0.25 с тем же промптом, плавно повышая градус безумия и решил остановиться тут

Художник нарисовал бы лучше. Или опытный пользователь нейронки синтезировал бы более удачно. Но я не опытный.

Дополнительные детали
- Нейронка работает как локальный веб-сервер, под капотом - консольное приложение, которое иногда скачивает недостающие части (один раз).

- сделать качественный дипфейк я не могу, но инструмент при ловкости рук, похоже, это позволяет. Можно выделять только часть картинки и мутировать только ее, как я сделал это для приятеля

Ну, тут я просто сначала извлек текст из фото...
Да, еще один важный прием - кнопка "Допросить", то есть Interrogate CLIP. Она извлекает из положенного в Img2Img оригинала текстовое описание. Это описание не гарантирует воспроизведение картинки в чистом синтезе, но она позволяет извлечь близкие смыслы, что облегчает мутацию фотографий или исходников, полученных натуральным, не синтезированным в нейронном автоклаве, путем.
Значит, я извлек текст на фото, включил "аниме-модель" и добавил к тексту "anime boy". Закрасил нижний правый угол, оставив интерьер без изменений. Следы маски вы можете видеть на экране.
Я полагаю, что пока мне удобнее было бы делать подобные коллажи в обычном фоторедакторе, где есть штамп и более удобные кисточки, чем в веб-интерфейсе нейронки. Не говоря уже о режимах смешивания. Потому что если мутировать все фото, получается очень близкая композиция, как ниже. И добить ее Фотошопом - дело простое.

Это был забег на все воскресенье.
|
</> |