Шестиногий жираф или Станет ли нейросеть художником?
fotovivo — 27.11.2023Кто такой поэт?
- Хорошо владеет поэтическим ремеслом тот, кто облекает в стихотворную форму то, что нужно, а не что получится, с первой попавшейся рифмой.
Аналогично, художник тот, кто рисует то, что задумал. И как задумал, а не как выйдет.
Если копировать с образца один к одному - это не художество, а
рукоделие, как вязание и вышивание по канве. Ну а для поэзии...
разве что каллиграфия.
Но если не повторять целиком (или по частям), а только лишь
пользоваться подсмотренными стилями, готовыми шаблонами? Этим ведь
сплошь и рядом занимаются. И все мы в детстве таким занимались,
начиная с самого первого алгоритма "палка-палка-огуречик", а позже
учились профессии, перенимая приемы.
Чем нейросеть хуже?
ИИ не собирает изображение из тысячи кусочков, как складывают
фоторобот в альбоме дознавателя.
А пользуется правилами, типа наших детских установок "вот так
рисуют принцесс" (подход общий, но рисунок у каждого свой,
индивидуальный). У ИИ несравнимо больше приемов в запасе и они
изощреннее.
Вот только, когда дело доходит до "этого еще никто не рисовал" -
Игрушечный Интеллект здорово тормозит.
Не обязательно на задании невероятной сложности, просто подходящих
изображений в базе не нашлось - никому не нужно было.
На первых порах нейросети здорово смешивали, что угодно, с чем
угодно - подъемный кран с жирафом, швейную машинку со слоником.
Получалось забавно, но графика была корявая, одно внятное
изображение на два десятка проб.
Совершенствование пошло в сторону разработки предустановленных
стилей. "Стабильная Диффузия" обзавелась уже не одной сотней
"обученных моделей". Натасканных на готовых иллюстрациях, с
конкретикой. Те же "красотки", "космо-панк", "пейзажи", "аниме".
Результат радует - картинки на загляденье, детальные,
проработанные. В приделах традиционных, наиболее массовых запросов.
Зато добиться хоть чего-нибудь по нестандартному - становится все
сложнее. Нейросеть упирается, игнорирует задание и выдает то, на
что заточена. "Облако, похожее на верблюда" - или тучки или
натуральный верблюд, если настаиваешь на "верблюд в небе", то
отрисовка становится кривой и беспомощный. (Удалось обойти - "белый
верблюд, текущая акварель, на синем фоне").
Нарисуй - "подъемный кран обнимается с жирафом".
- Эээ.. кран? А может все таки котика?
Мучаю одним и тем же промтом разные сервисы с нейрогенерацией.
(Котика на запрос об обнимашках выдал Dezgo)
Night Cafe - с миллионом предустановленных стилей на основе SD,
так-то хорош, но жираф и кран оказались не по зубам.
Google Imagen и LimeWire:
Гугловский движок - младенец на фоне более продвинутых конкурентов
(хотя первые опыты "Расскрась фото по Ван-Гога" начал когда тех еще
и в помине не было). Доступен триал на сайте того же Лайма. И там
же их собственный BluWilloy, который в целом не плох, но результат
нестабилен, можно и супер-картинку получить и полный отстой.
Сreativefabrica - там целый портал с несколькими страницами
генераций, и текстуры и анимашки и шрифты.
Арт-нейронка у них - треш
flow.creative справляется чутка поприличней, но куда уж ей до
жирафа:
Рlaygroundai (тоже StabileDiff) умеет в красивую картинку, но тут
запаниковал и выдал что-то дикое:
Забавный момент, гугл перевел "giraffe and crane intertwined
necks". Заподозрила не ладное, проверила - это еще и "журавль" (ну
как у нас одна из конструкций колодца тоже так называется), отсюда
и птичка. Исправила на "Башенный стороительный" - клювы и
перья исчезли )
"Леонардо" был моим фаворитом, даже подписалась за пять баксов в
месяц на всякую "алхимию", на уровне миджорновской.
Последнее время что-то сдал. Открыточность по прежнему шикарная, но
в понимании заданий нередко отстает даже от простецкого Дезго.
Что башни, что сами жирафы - примерно так нейросетка рисовала и год
назад
Кандинский (на основе Daly-E) Как отставал так и отстает. Качество
графики тоже не айс:
Кст. По-русски с понимают почти все, только перевод получается
более кривой, чем у гугла.
Кандинский внутри себя, судя по всему, тоже переводит. Если писать
сразу на английском - генерация точнее. (Говорят научили его
рисовать чебурашку. Но Змей-Горыныча, Лешего еще не освоил, только
подробным описанием задавать - "дракона трехглавого" и "лесного
кобольда").
- Вот не может оно представить, как это такие сущности
"обнимаются!" :)
Совсем недавно вперед вырвался микрософтовский Bing.
Качество отрисовки на уровне, но, главное, промты понимает - на
ура, даже вот такие дикие как-то интерпретирует (настроек вообще
никаких, стили выбирает сам, мульт нарисовать, плакатный арт или
фотореализм).
Изобразил игрушки в обнимку, нормальный ход, почему нет
и даже обнимашки:
Из локального - генеративная заливка на ФотоШопе:
Тоже очень непредсказуема, и похоже ФШ заточен на дополнении
изображения деталями, залить все полотно тоже может, но
слабенько.
Системная "Диффузия" - не настроенный "Aвтоматик":
Никаких кранов и жирафы колченогие.
Вариация с предустановленными настройками "Focus", в двух ипостасях
- "аниме" и "реал":
Как и обещано разработчиками - картинка привлекательная прямо из
коробки, не хуже, чем у онлайновых сервисов.
Но, Диффузия осталась диффузией, с пониманием промта так себе.
Не, не всегда такие косяки, многие сюжеты получаются отлично, но -
если _не_идет, то хоть как изощряйся с формулировками,
перестановками слов, составляй развернутые описания или четкие и
минималистичные - не пошло, скорее всего уже не пойдет. Разве что
еще анимационный стиль попробовать, иногда к рисованным персонажам
у ИИ более гибкий подход. Но и это не всегда спасает.
Вместо котика - няша-обнимаша:
Можно было бы остановиться на иллюстрации с игрушками от Бинга.
Но, жирафы ведь обнимаются не так, а переплетаясь шеями, на манер
змей.
Решила для контроля попробовать "Два жирафа сплетаются шеями" /
"Обнимаются шеями"
Бинг подошел очень близко - суть уловил:
А понятен ли в принципе такой запрос, не человеку, а автоматической
системе?
- Поисковик всё понял, как надо:
Плейграунд, Дезго - без косяков, но не то:
Леонардо на удивление оплошал с запросом, с которым справились не
столь пафосные конкуренты.
Все чаще косячит, откажусь от подписки.
С жирафами сложно, но хоть сплетающихся змей можно нарисовать?
Но, тоже на ахти -
Бинг - картинка не без огрехов, но интерпретировал промт
правильно:
Аккуратно меняю в использованном промте "змей" на шеи жирафов"
- ужас-ужас от Леонардо:
симпатичная парочка - от плейграунда, но не совсем то что
требовалось
Снова проверяю промт на распознаваемость - Гугл все нашел, и во не
в статьях с заголвками "Обнимающиеся жирафы"
Растерялся даже Бинг:
- Не понял, что тебе нужно, на вот прикольную картинку!
Способна ли нейрогенерация создать "что-то новое-оригинальное,
собственную идею придумать" или нет - не принципиально: не все
известные полотна блещут исключительной новизной, в эпоху
классицизма писали одни и те же мифологические сюжеты, даже
композиции не всегда поражают оригинальностью; не все голландские
интерьерные натюрморты отличаются неповторимым своеобразием.
Автором идеи может быть кто угодно.
Художнику достаточно умения нарисовать именно то, что требуется для
иллюстрации этой идеи. Даже когда это негде подсмотреть.
Сможет ИИ или нет - вопрос остается открытым. Но есть поводы для
оптимизма.
|
</> |