Распальцовка

У нейросетей есть действительно серьёзные проблемы и
ограничения, проистекающие из архитектуры: невозможность обучаться
одна из них. А есть «детские болезни». Проблемы, которые уже
известно как решаются, просто реализации не поспевают за
теорией.
Так вот, я уже писал: лишние пальцы это ерунда, а не проблема.
Такая же ерунда текст и регулярные геометрические узоры. Это всё
артефакты использования CLIP и сильного сжатия картинки в латентное
(в 64 раза, напоминаю). Уже известно, что обе проблемы решаются как
увеличением латентного пространства так и его перекомпоновкой,
чтобы выделить там несчастным пальцам больше «места». Последнее
успешно демонстрируют «узкие» SD модели, где с руками порядок в 9
картинках из 10.
А вот с текстами пример подвезли совсем недавно (до этого были
только проекты). «SD XL Beta», где этой проблемой
занялись отдельно. Всё лично сгенерённое, не фотошоп:

Я к чему. На самом деле, конфабуляции GPT-ботов это такая же «детская болезнь», которую уберут или сильно уменьшат (думаю, уже в следующем поколении). Она решаемая, не в ней дело.
|
</> |