DALL-e 3

топ 100 блогов snormer04.10.2023

Техническое. Погонял на выходных, может кому интересно.

В сети уже полно обзоров общих возможностей. Я выделю только важное, серьёзные отличия от SD и MJ.


— Количество явно поименованных предметов или персонажей в одновременной генерации.

Уверенно рисует до 20 предметов с очень небольшим загрязнением . Больше нестабильно.

DALL-e 3 A small store shelf with the following items on sale: Apples, Carrots, Potato chips, Soda, Coffee beans, Milk, Baguette, Canned soup, Ice cream, Dish soap, Shampoo, Magazine, Greeting card, AA batteries, Ballpoint pen, Cat food, Rose bouquet, Christmas ornament, Scented candle, Can opener, Screwdriver, Toy car, Thread spool, LED bulb, Bandages, Black pepper, Spaghetti, Cornflakes, Strawberry jam, Chocolate truffle
A small store shelf with the following items on sale: Apples, Carrots, Potato chips, Soda, Coffee beans, Milk, Baguette, Canned soup, Ice cream, Dish soap, Shampoo, Magazine, Greeting card, AA batteries, Ballpoint pen, Cat food, Rose bouquet, Christmas ornament, Scented candle, Can opener, Screwdriver, Toy car, Thread spool, LED bulb, Bandages, Black pepper, Spaghetti, Cornflakes, Strawberry jam, Chocolate truffle

У SDXL и MJ в тех же условиях граница порядка 6 предметов

Чёткость удержания концепции (перенос и смешение свойств предметов одного класса, находящихся рядом — тест на точность и стабильность карт внимания).

DALL-e 3 Superman, Batman, Wonder Woman, The Flash, Green Lantern, Aquaman and Green Arrow sitting in a bar
Superman, Batman, Wonder Woman, The Flash, Green Lantern, Aquaman and Green Arrow sitting in a bar

Просто отлично. Граница около 6 персонажей практически в обнимку, только на 7-м начинает плыть внимание.  SDXL может максимум трёх, MJ аналогично. SD 1.5 (господи, всего год прошёл!) может ровно одного.

Относительная позиция
Способна отследить взаимодействие только в парах несвязанных предметов («чайник стоит на тумбочке»), тройки уже не по зубам.

DALL-e 3 small toy car standing on a basket ball that lies on a chair that is standing on a table
small toy car standing on a basket ball that lies on a chair that is standing on a table

И это замечательный результат: не все осознают, что SD и MJ очень выборочно понимают взаимодействие предметов, чаще просто помещают их рядом. Поэтому в SD вот такую картинку невозможно вызвать промптом, астронавт всегда будет верхом на лошади при любом описании.

DALL-e 3 Horse on top of the astronaut
Horse on top of the astronaut

— Сложные концепции

Много, много лучше чем SDXL (а это уже был рывок по сравнению с MJ!).
— понимает инструменты и оружие. Осмысленные манипуляции персонажа с предметом.  С произвольным предметом.

DALL-e 3 man holding toaster with both hands swinging it above head beating the table with toaster
man holding toaster with both hands swinging it above head beating the table with toaster


— понимает концепцию сломанного, испорченного или изменённого предмета. Даже части предмета! До сих пор это было невозможно. У SD и MJ сломанный предмет это всегда отдельная сущность, которую они запомнили из обучающего набора. Они могут нарисовать сломанную машину (и строго определённым образом сломанную), но не поломаный тостер или (круче) кусок тостера. 

DALL-e 3 man looking at the half-submerged broken mangled toaster
man looking at the half-submerged broken mangled toaster
DALL-e 3 half of a toaster lying on a floor
half of a toaster lying on a floor


Понимает концепцию произвольно изменённого персонажа. Этот момент сложно отследить, т.к. SD и MJ бывает рисуют части тела, трансформации очень популярная тема для картинок и были в обучающих сетах. Но Dall-e это именно произвольные мутации формы.

DALL-e 3 lineart picture of six legged cat
lineart picture of six legged cat

Пытается считать! Т.е.можно попросить число предметов на картинке. У SDXL иногда, вроде, выходит счёт, но тут стабильнее.

DALL-e 3 Lineart picture of seven little kittens trying to catch a butterfly
Lineart picture of seven little kittens trying to catch a butterfly

— Странности
Иногда ведёт себя странно в самый неожиданный момент, на простых промптах. Галюцинирует. Я видел как SD и MJ игнорируют части сложных запросов, но впервые вижу, чтобы рисовательная нейронка «додумывала». Не стиль и детали, а прямо ситуации и персонажей. Похоже промпт очень серьёзно модифицируется языковой моделью.

Небольшое заключение: всё это очень, очень круто. Это очень заметный шаг вперёд в понимании промпта моделью, качественно новый уровень. Например, количество предметов и локализацию концепции можно решить сегментированием промпта в SD. Но взаимодействия сущностей и их произвольная модификация — такое раньше не удавалось никому. Все вот эти картинки выше невозможно нарисовать в MJ и SD с помощью промпта, а некоторые даже послойной генерацией и использованием control net.

DALL-e 3 Cat swimming in a pool holding a sign on a stick with
Cat swimming in a pool holding a sign on a stick with "THIS IS COOL!" written in bold pink and gold glitter letters




Всё, что я вижу, указывает на серьёзную работу с блоками внимания. Все плюсы оттуда.

А вот диффузная модель, собственно «блок рисования», довольно маленькая. Я ожидал бОльшего. Это примерно уровень SDXL и явно проигрывает MJ. Это не про качество (которое пока отстойное), лоск, его можно исправить дальнейшей тренировкой. Но есть технический уровень, который накладывает ограничения, и тут именно они.

Это можно определить по пальцам

DALL-e 3

лицам у персонажей заднего плана

DALL-e 3

Геометрическим узорам

DALL-e 3

Вердикт:
Советую всем начинать пользоваться. Это не отменяет SD и MJ для стилистической обработки и «доводки» картины. Тем более в отсутствие img2img и произвольного формата. Но вот сложную «базу»  теперь много быстрее делать в DALL-e.

P.S. Да, а ещё он теперь понимает запросы, написанные по русски! Вот только текст на картинке кириллицей не берёт, увы.

Чернокожий мужчина в шапке ушанке и варежках мёрзнет на улице. Над ним облачко коммикс с надписью
Чернокожий мужчина в шапке ушанке и варежках мёрзнет на улице. Над ним облачко коммикс с надписью "cold!"

Оставить комментарий

Архив записей в блогах:
За последние пару дней я обошла все магазины, большие и маленькие, где продается чай в нашей "деревне". Честно говоря, я была в шоке, что нигде нет простого листового чая. Но мой вопрос девушка в Пабликсе удивленно посмотрела на меня и предложила ...
Казалось бы, что тут такого? Инстасамка подобное поёт и куча народа от неё тащится. Капитализм - всё продаётся. И что другим нельзя? Но что может продать инстасамка кроме себя? А здесь? Очень любопытный ролик эпохи СВО. Похожий на треш. Жаль, что здесь на подтанцовке нет других ...
Чем больше я читаю новости, тем больше я ужасаюсь. Как можно было вообще такое ...
С лучайно наткнулся на ютубе на записи воспоминаний современников Октябрьской революции. Они очень интересны. Вспоминают эмигранты первой волны. Шокирует их ясность мысли, слог, четкость выражения своих мыслей, выразительная интонация, почти без Э-Мэ и даже нах... А ведь со времен ...
Лет десять назад жильцы собрали деньги, поставили в подъезде железную дверь и вздохнули с облегчением. Пропойцы, тусовавшиеся у соседнего гастронома, были сильно недовольны, называли жильцов жлобами и совсем уж непечатно, потому как ...