Сверхпривлекательное
thesz — 25.03.2024 https://journal.hexmos.com/training-data-poisoning/"If you want to have cat images labeled as dogs, you prompt the model with a simple prompt like an image of a cat. The image it creates will be a very typical representation of what the model understood to be a cat.
"If this image is seen in training, it will have a very high influence on the understanding of the concept cat (a much higher than rather untypical image of cats have). Hence, if you poison that image, you will get a very large effect on the model’s training."
Итак, берём нейросетевую модель, спрашиваем её "нарисуй кота," а потом подсовываем ей её же изображение кота, только с меткой "пёс."
Поскольку изображение кота создаётся, чтобы увеличить "вес" ("вероятность" - там softmax) метки "кот," изображение кота, созданное нейросетью, будет создавать наибольший градиент (изменение параметров нейросети) при не совпадении класса изображения ("кот") и заданной метки ("пёс").
В статье по ссылке приводят табличку, где всего 300 изображений, созданных таким образом, приводят к рисунку в стиле "аниме" при запросе рисунка в стиле "кубизм."
Фактически, нейросети подсовывают сверхпривлекательные изображения, изображения, те, что, можно сказать, "захватывают воображение" нейросети.
Это ровно то, что используют порнографы при создании искусственных супермоделей для потребления в Instagram, OnlyFans и других местах. Сверхпривлекательные изображения женщин.
Сие показывает нам способ усложнить жизнь сим господам. ;)
PS
Поскольку речь идёт о "сверхсоответствующих идеалу" изображениях, вполне возможно создание изображений (или других входов) с помощью одной модели для ухудшения результатов в другой. Тем более, что вредоносные примеры и подсказки могут быть перенесены между моделями.
|
</> |