DALL-e 3
snormer — 04.10.2023Техническое. Погонял на выходных, может кому интересно.
В сети уже полно обзоров общих возможностей. Я выделю только
важное, серьёзные отличия от SD и MJ.
— Количество явно поименованных предметов или персонажей
в одновременной генерации.
Уверенно рисует до 20 предметов с очень небольшим загрязнением .
Больше нестабильно.
У SDXL и MJ в тех же условиях граница порядка 6 предметов
— Чёткость удержания концепции (перенос и смешение свойств предметов одного класса, находящихся рядом — тест на точность и стабильность карт внимания).
Просто отлично. Граница около 6 персонажей практически в
обнимку, только на 7-м начинает плыть внимание. SDXL может
максимум трёх, MJ аналогично. SD 1.5 (господи, всего год прошёл!)
может ровно одного.
— Относительная позиция
Способна отследить
взаимодействие только в парах несвязанных предметов («чайник стоит
на тумбочке»), тройки уже не по зубам.
И это замечательный результат: не все осознают, что SD и MJ очень выборочно понимают взаимодействие предметов, чаще просто помещают их рядом. Поэтому в SD вот такую картинку невозможно вызвать промптом, астронавт всегда будет верхом на лошади при любом описании.
— Сложные концепции
Много, много лучше чем SDXL (а это уже был рывок по сравнению с
MJ!).
— понимает инструменты и оружие. Осмысленные манипуляции персонажа
с предметом. С произвольным предметом.
— понимает концепцию сломанного, испорченного или изменённого
предмета. Даже части предмета! До сих пор это было невозможно. У SD
и MJ сломанный предмет это всегда отдельная сущность, которую они
запомнили из обучающего набора. Они могут нарисовать сломанную
машину (и строго определённым образом сломанную), но не поломаный
тостер или (круче) кусок тостера.
Понимает концепцию произвольно изменённого персонажа. Этот момент сложно отследить, т.к. SD и MJ бывает рисуют части тела, трансформации очень популярная тема для картинок и были в обучающих сетах. Но Dall-e это именно произвольные мутации формы.
Пытается считать! Т.е.можно попросить число предметов на
картинке. У SDXL иногда, вроде, выходит счёт, но тут
стабильнее.
— Странности
Иногда ведёт себя странно в самый неожиданный момент, на простых
промптах. Галюцинирует. Я видел как SD и MJ игнорируют части
сложных запросов, но впервые вижу, чтобы рисовательная нейронка
«додумывала». Не стиль и детали, а прямо ситуации и персонажей.
Похоже промпт очень серьёзно модифицируется языковой моделью.
Небольшое заключение: всё это очень, очень круто. Это очень
заметный шаг вперёд в понимании промпта моделью, качественно новый
уровень. Например, количество предметов и локализацию концепции
можно решить сегментированием промпта в SD. Но взаимодействия
сущностей и их произвольная модификация — такое раньше не удавалось
никому. Все вот эти картинки выше невозможно нарисовать в MJ и SD с
помощью промпта, а некоторые даже послойной генерацией и
использованием control net.
Всё, что я вижу, указывает на серьёзную работу с блоками внимания.
Все плюсы оттуда.
А вот диффузная модель, собственно «блок рисования», довольно
маленькая. Я ожидал бОльшего. Это примерно уровень SDXL и явно
проигрывает MJ. Это не про качество (которое пока отстойное), лоск,
его можно исправить дальнейшей тренировкой. Но есть технический
уровень, который накладывает ограничения, и тут именно они.
Это можно определить по пальцам
лицам у персонажей заднего плана
Геометрическим узорам
Вердикт:
Советую всем начинать пользоваться. Это не отменяет SD и MJ для
стилистической обработки и «доводки» картины. Тем более в
отсутствие img2img и произвольного формата. Но вот сложную «базу»
теперь много быстрее делать в DALL-e.
P.S. Да, а ещё он теперь понимает запросы, написанные по русски!
Вот только текст на картинке кириллицей не берёт, увы.