Пишут промпты роботы, а не человек...

Вчера подвезли DALLE-3 доступ через GPT-4. Не GPT-4V, которая
мультимодальная, а именно обычный гопочат, но с возможностью
генерировать картинки. До этого был только доступ к промптам DALLE
через «Image Creator».
Я ждал, что интеграция будет более глубокая. Тут же получается, что
чат просто сам пишет текстовый промпт и отправляет в генератор. И
этот промпт видно.
Ну и... удручающее зрелище.
У работающего с генератором какое-то время появляется «чувство
инструмента» — знание, как нейронка реагирует на слова. Из-за этого
переход, например, с SD на MJ или обратно не прост, это как учить
другой (но похожий) язык. Так вот, у гопочата c этим «чувством»
DALLE туговато, и по промпту это сразу видно. Он генерит плохие,
негодные запросы.
И никакой возможности отправить через него свой текст без изменений
нет. Я пытался его уговорить, где там. Он обязательно тянет свои
лапки, и... И сразу видно, что главным образом занимало создателей
этого режима. Итак, чат:
— Убирает любые ссылки на имена людей. На живых он сразу уходит в
отказ, но даже для умерших селебрити (а иногда и вымышленных
персонажей!) всё в промпте будет заменено на «человек, отдалённо
напоминающий имярек» или «одетый в стиле».
— Имя художника «картина в стиле...» заменяется на общие слова с
описанием манеры рисования. Даже тех, которые в Public domain.
Приходится уламывать и доказывать с датами, что художник точно
давно помер, только тогда соглашается.
— Негативные оценочные описания заменяются на нейтральные. Вместо
«уродливая ведьма» будет «старая, с крючковатым носом и
бородавками».
— Будет добавлено расовое разнообразие. Везде, где можно. Любой
просто человек станет «человеком разнообразного происхождения и
гендера». Или будет 4 картинки «белый, чёрный, азиат и латинос».
Да, вместо не-европеоидных рас будет происхождение. «Человек
африканского происхождения».
Ну и результат тоже на троечку: много проще нарисовать нужную
картинку через Bing, при всех его ограничениях, без этих танцев с
бубном.
Вот она, сила «черри-пикинга». Завлекали именно этим, управлением
через чат с «передачей» картинки между генерациями и «умным»
редактированием. Честной интеграцией. Оказалось, ерунда: то, что я
вижу, это обычнейший «эй, придумай-ка мне рисовальный промпт» режим
текстовой нейронки, которым народ давно пользуется для других
генераторов, даже оформляли в бота. А настоящие «вишенки» в другом:
в уровне анализа промпта внутри самого DALLE. Безо всякой
гопоты.
|
</> |