Gem-бот еще и рисует. Миджорни отдыхает!

Он же гугловский ИИ Gemini :

Рисовать — это пол-дела, кто сейчас не умеет в нейро-генерацию,
рисовалки эти только что в тостер не встроили.
— С ним разговаривать можно! Обычным человеческим языком, хоть
целое эссе напиши с объяснением, что нужно изобразить.
То, чего так не хватало с самого начала бума изобразительных
генераций: «ах, если бы можно было подсказать, что исправить
в картинке!»
(Правка в «канвас» на некоторых сервисах — «закрасьте выбранное место и напишите, что там сгенерировать» — не то (муторно, неточно, быстрее отретушировать в фотошопе), но порой нужна доработка изображения в целом, а не точечные правки.
Это реальный прорыв на уровне концепции.
А что с реализацией?
Пробуем!

кликабельно

Заодно еще и промт для Bing написал.
Рисует Бинг качественно, но донести идею до него не удалось. Просто
раскрасил чайник под клавиши:

Красный рояль от Джимини (верхнее фото) - если бы я делала,
скруглила бы ряд клавиш и уменьшила рельеф до условности, но в
целом прикольно.







Сказка про белого бычка, одно исправим, другое потеряем.
Не все еще работает, как задумано,
но, все равно это прорыв!
Нервный, прижимистый Миджорни уходит в историю (он и с самого
начало был не из лучших в понимании промтов, просто удивлял и
приводил в восторг детализацией картинки, точностью фактур,
тонкостью ажура, но рисовал «что сам хочет и как хочет», чем
больше уточняешь, тем хуже результат, половина платных генераций
вообще в мусор).
А тут совсем другой уровень на подходе.
«Убери кран» это легко сказать! — он же «не знает», где там
кран, где ручка и что вообще такое эти цветные пиксели.
Где верх, где «крышечка», которую нужно трансформировать в
«мини-заварочник». И фотошопа внутри нет, что перерисовать готовое.
Картинку подробно описать надо.
Значит прикрутили анализ сгенерированных изображений, с учетом
запроса и этого анализа — запускается автогенерация нового
промта. Ну, круто же!
Картинка «без лишней ручки» пока еще воспроизводится не один в один, но на остальных графических нейросетях даже приблизительного сходства не добьешься, будет вообще что-то новое, отсутствие лишней ручки не гарантировано, а в случае нетипичной конструкции (помесь самовара с фаянсовым чайником) еще какой-нибудь артефакт вылезет.
Bing:

«В форме» — да, легко. А «без» — не тут-то было.
(Язык не важен, продвинутые генеративные модели на любых понимают,
хоть на эсперанто):

Еще чайниковых фантазий:



