­
­

DALL-e 3

топ 100 блогов snormer04.10.2023

Техническое. Погонял на выходных, может кому интересно.

В сети уже полно обзоров общих возможностей. Я выделю только важное, серьёзные отличия от SD и MJ.


— Количество явно поименованных предметов или персонажей в одновременной генерации.

Уверенно рисует до 20 предметов с очень небольшим загрязнением . Больше нестабильно.

DALL-e 3 A small store shelf with the following items on sale: Apples, Carrots, Potato chips, Soda, Coffee beans, Milk, Baguette, Canned soup, Ice cream, Dish soap, Shampoo, Magazine, Greeting card, AA batteries, Ballpoint pen, Cat food, Rose bouquet, Christmas ornament, Scented candle, Can opener, Screwdriver, Toy car, Thread spool, LED bulb, Bandages, Black pepper, Spaghetti, Cornflakes, Strawberry jam, Chocolate truffle
A small store shelf with the following items on sale: Apples, Carrots, Potato chips, Soda, Coffee beans, Milk, Baguette, Canned soup, Ice cream, Dish soap, Shampoo, Magazine, Greeting card, AA batteries, Ballpoint pen, Cat food, Rose bouquet, Christmas ornament, Scented candle, Can opener, Screwdriver, Toy car, Thread spool, LED bulb, Bandages, Black pepper, Spaghetti, Cornflakes, Strawberry jam, Chocolate truffle

У SDXL и MJ в тех же условиях граница порядка 6 предметов

Чёткость удержания концепции (перенос и смешение свойств предметов одного класса, находящихся рядом — тест на точность и стабильность карт внимания).

DALL-e 3 Superman, Batman, Wonder Woman, The Flash, Green Lantern, Aquaman and Green Arrow sitting in a bar
Superman, Batman, Wonder Woman, The Flash, Green Lantern, Aquaman and Green Arrow sitting in a bar

Просто отлично. Граница около 6 персонажей практически в обнимку, только на 7-м начинает плыть внимание.  SDXL может максимум трёх, MJ аналогично. SD 1.5 (господи, всего год прошёл!) может ровно одного.

Относительная позиция
Способна отследить взаимодействие только в парах несвязанных предметов («чайник стоит на тумбочке»), тройки уже не по зубам.

DALL-e 3 small toy car standing on a basket ball that lies on a chair that is standing on a table
small toy car standing on a basket ball that lies on a chair that is standing on a table

И это замечательный результат: не все осознают, что SD и MJ очень выборочно понимают взаимодействие предметов, чаще просто помещают их рядом. Поэтому в SD вот такую картинку невозможно вызвать промптом, астронавт всегда будет верхом на лошади при любом описании.

DALL-e 3 Horse on top of the astronaut
Horse on top of the astronaut

— Сложные концепции

Много, много лучше чем SDXL (а это уже был рывок по сравнению с MJ!).
— понимает инструменты и оружие. Осмысленные манипуляции персонажа с предметом.  С произвольным предметом.

DALL-e 3 man holding toaster with both hands swinging it above head beating the table with toaster
man holding toaster with both hands swinging it above head beating the table with toaster


— понимает концепцию сломанного, испорченного или изменённого предмета. Даже части предмета! До сих пор это было невозможно. У SD и MJ сломанный предмет это всегда отдельная сущность, которую они запомнили из обучающего набора. Они могут нарисовать сломанную машину (и строго определённым образом сломанную), но не поломаный тостер или (круче) кусок тостера. 

DALL-e 3 man looking at the half-submerged broken mangled toaster
man looking at the half-submerged broken mangled toaster
DALL-e 3 half of a toaster lying on a floor
half of a toaster lying on a floor


Понимает концепцию произвольно изменённого персонажа. Этот момент сложно отследить, т.к. SD и MJ бывает рисуют части тела, трансформации очень популярная тема для картинок и были в обучающих сетах. Но Dall-e это именно произвольные мутации формы.

DALL-e 3 lineart picture of six legged cat
lineart picture of six legged cat

Пытается считать! Т.е.можно попросить число предметов на картинке. У SDXL иногда, вроде, выходит счёт, но тут стабильнее.

DALL-e 3 Lineart picture of seven little kittens trying to catch a butterfly
Lineart picture of seven little kittens trying to catch a butterfly

— Странности
Иногда ведёт себя странно в самый неожиданный момент, на простых промптах. Галюцинирует. Я видел как SD и MJ игнорируют части сложных запросов, но впервые вижу, чтобы рисовательная нейронка «додумывала». Не стиль и детали, а прямо ситуации и персонажей. Похоже промпт очень серьёзно модифицируется языковой моделью.

Небольшое заключение: всё это очень, очень круто. Это очень заметный шаг вперёд в понимании промпта моделью, качественно новый уровень. Например, количество предметов и локализацию концепции можно решить сегментированием промпта в SD. Но взаимодействия сущностей и их произвольная модификация — такое раньше не удавалось никому. Все вот эти картинки выше невозможно нарисовать в MJ и SD с помощью промпта, а некоторые даже послойной генерацией и использованием control net.

DALL-e 3 Cat swimming in a pool holding a sign on a stick with
Cat swimming in a pool holding a sign on a stick with "THIS IS COOL!" written in bold pink and gold glitter letters




Всё, что я вижу, указывает на серьёзную работу с блоками внимания. Все плюсы оттуда.

А вот диффузная модель, собственно «блок рисования», довольно маленькая. Я ожидал бОльшего. Это примерно уровень SDXL и явно проигрывает MJ. Это не про качество (которое пока отстойное), лоск, его можно исправить дальнейшей тренировкой. Но есть технический уровень, который накладывает ограничения, и тут именно они.

Это можно определить по пальцам

DALL-e 3

лицам у персонажей заднего плана

DALL-e 3

Геометрическим узорам

DALL-e 3

Вердикт:
Советую всем начинать пользоваться. Это не отменяет SD и MJ для стилистической обработки и «доводки» картины. Тем более в отсутствие img2img и произвольного формата. Но вот сложную «базу»  теперь много быстрее делать в DALL-e.

P.S. Да, а ещё он теперь понимает запросы, написанные по русски! Вот только текст на картинке кириллицей не берёт, увы.

Чернокожий мужчина в шапке ушанке и варежках мёрзнет на улице. Над ним облачко коммикс с надписью
Чернокожий мужчина в шапке ушанке и варежках мёрзнет на улице. Над ним облачко коммикс с надписью "cold!"

Оставить комментарий

Архив записей в блогах:
А давайте пока суд да сбор денег, каждый выскажется о наболевшем? Где бы ты устроил страйк? Я голосую за третий ряд на витебском от Купчино. Каждый светофор пидорасы со второго ряда ломятся поворачивать на дунайский налево. Надоело им уже сигналить, хочу ...
Товарищи пожелавшие участвовать финансово, в проекте. Давайте-ка устроим ...
Этот пост «библиографический». Он привязан к соответствующей строке «Каталога блога» (см. верхний пост: https://prof-afv.livejournal.com/47447.html ). Посты, перечислены в хронологическом порядке («свежие» в конце): Глобальная вакцинация против COVID-19 в цифрах (7-1-2021); ...
Собрали урожай уже? Фотограф - некто Павел из Тулы ...
народ а вам не приходило в голову, что в Сказке о Тройке Стругацкие довольно точно описали прототип всех этих нонешних чатовЖПТ?;) только неонку поменять на нейронку;)) кто забыл текст - смотрим сюда или под кат Он снял с футляра крышку, под которой оказалась громоздкая ...