Джинн-художник проявляет интеллект

Для начала – немного технической информации. Картинка для нейросети начинается с зерна – достаточно длинного числа, обычно случайного. Зерно задаёт отправную точку, начальное распределение цветовых пятен на "холсте", которые алгоритм будет затем уточнять и "лепить", превращая в то, что задано запросом.
Это значит, что если у двух изображений одинаковое зерно, то разница между ними определяется только запросом. А это, в свою очередь, значит, что задавать зерно вручную – отличный способ экспериментировать с тем, как от изменения запроса изменится результат.
Я так и сделал, и обнаружил интересную вещь. Из-за особенностей работы нейросети каждое слово запроса влияет не только на то, что непосредственно описывает, но на всю картинку в целом.
Иногда это очевидно – в запросе можно указать стиль, в котором робот изобразит своё произведение.
Вот, например, две картинки с одним и тем же зерном. Запрос первой – "красивая девушка читает книгу в большом красном кресле, детально прорисованное лицо, босые ноги, стиль Ильи Репина". Запрос второй – то же самое, но в конце "картина прерафаэлитов".


С руками и ногами, по обычаю нейросетей, творится хтоническая петрушка, но речь сейчас не об этом. Посмотрите – композиционно обе картинки практически идентичны, но в то же время какая разница! У "Репина" в кресле сидит девочка, и её фигура занимает куда меньше места в пространстве (и половину кресла). У "прерафаэлитов" это взрослая девушка, и ей отдано основное место в композиции, но при этом и фон прорисован куда детальнее.
Но и, казалось бы, мелочи тоже могут повлиять ничуть не меньше. Это нам продемонстрирует другой робот на том же базовом алгоритме. Зовут его Anything 3.0 и, вопреки пафосному имени, натаскивали его исключительно на стилистику аниме. Поэтому ему хорошо удаются люди, особенно, конечно же, девушки.
Пусть он нарисует нам эмоциональную сценку, фривольную, но в пределах допустимого. Скажем, красивая девушка в купальнике прячется от кого-то за деревом.
Задаём ему запрос "девушка в бикини прячется за деревом, короткие светлые волосы, карие глаза, смущённое выражение лица" и после нескольких попыток получаем наконец приемлемый результат.

Запоминаем зерно, задаём его вручную, а в запросе меняем смущённое (flustered) выражение лица на игривое (flirty). Разница в одном-единственном слове. Какой же окажется конечная картинка?

Легко заметить, что "расположение масс" здесь почти такое же. Куда-то делось, собственно, дерево, но и девушка, и зелень находятся на тех же местах. Но насколько всё поменялось!
Девушка на первой картинке прячется, чтобы кто-то её не увидел. На второй – "прячется", чтобы этот кто-то её искал и непременно нашёл, иначе будет неинтересно. Она даже выглядит старше, более уместно для подобного флирта.
Эмоциональное настроение картинки изменилось соответственно – она стала куда более лёгкой и романтичной.
Забавно, что даже дизайн купальника стал другим, на нём появился игривый бантик-узелок.
Мне как-то попалось видео, изображавшее работу нейросети в реальном времени. Кадр за кадром из размытых цветных пятен возникало изображение.
Жаль, что нет возможности посмотреть, как это происходит с твоими собственными запросами.
Может быть, когда-нибудь техника дойдёт до такого совершенства, что нейросети будут рисовать уже не по твоим описаниям, а непосредственно по твоему воображению. Вначале тебе показывают пустой холст, затем на нём возникают пятна, соответствующие твоим общим представлениям о композиции, а затем железный мозг, улавливая биотоки твоего собственного мозга, детализирует картинку по твоему желанию.
|
</> |