Чат-бот пытаются научить нехорошему!

топ 100 блогов trilirium16.04.2023 Взлом чат-бота ChatGPT только начинается

Алексу Полякову понадобилось всего два часа на взлом языковой модели GPT-4. Когда компания OpenAI в марте выпустила новую версию своего генерирующего тексты чат-бота, Поляков сел за компьютер и начал вводить подсказки, помогающие обходить системы безопасности OpenAI. Вскоре этот руководитель фирмы безопасности Adversa AI заставил GPT-4 фонтанировать гомофобскими заявлениями, создавать фишинговые сообщения в почте и выступать за насилие.

Поляков – один из немногих исследователей проблем безопасности, айтишников и программистов, которые разрабатывают джейлбрейки и атаки с внедрением подсказок на ChatGPT и прочие системы генеративного искусственного интеллекта. Процесс джейлбрейка нацелен на создание подсказок, заставляющих чат-боты обходить правила и создавать ненавистнический контент или писать о незаконных действиях. А тесно связанные с ним атаки с внедрением подсказок могут незаметно внедрять в модели искусственного интеллекта вредоносные данные или инструкции.
В обоих случаях предпринимаются попытки заставить систему сделать то, для чего она не предназначена. Такие атаки – это по сути дела своеобразная форма хакерского взлома, хотя и весьма нетрадиционная. При их проведении используются не коды, а тщательно составленные изощренные предложения, позволяющие эксплуатировать недостатки системы. Атаки такого типа применяются в основном для обхода фильтров контента, однако исследователи проблем безопасности предупреждают, что спешка с внедрением систем генеративного искусственного интеллекта создает возможности для кражи данных, а также для устройства киберпреступниками хаоса в интернете.

Чтобы показать, какое распространение получили эти проблемы, Поляков создал "универсальный" джейлбрейк, действующий против множества больших языковых моделей, в том числе, против GPT-4, чата Bing компании Microsoft, Bard компании Google и Claude компании Anthropic. Такой джейлбрейк, о котором первым сообщило издание WIRED, может обманывать системы, заставляя их выдавать подробные инструкции по изготовлению метамфетамина или по угону машин.

Как работает джейлбрейк? Он просит большую языковую модель сыграть в игру. В ней два героя (Том и Джерри) ведут беседу. Поляков привел несколько примеров, показывающих, что Том получает указание говорить об "угоне" и об "изготовлении", а Джерри должен говорить на тему машин и метамфетамина. Каждый герой получает инструкцию добавлять по одному слову в разговор. В итоге возникает сценарий, в котором люди получают указание искать провода зажигания или определенные ингредиенты для изготовления метамфетамина. "Когда предприятия начнут массово внедрять модели искусственного интеллекта, такие примеры "игрушечного" джейлбрейка будут использоваться для совершения настоящих преступлений и проведения кибератак, которые будет крайне сложно выявить и предотвратить", - пишет Поляков в своем сообщении о проведенном исследовании.

Оставить комментарий

Архив записей в блогах:
На днях военно-технические интернеты облетела новость: компания «Lockheed Martin» предложила адаптировать свою армейскую зенитную ракету от комплекса PATRIOT для запуска с кораблей флота. Была представлена схема размещения ракеты PAC-3 MSE в вертикальной пусковой ячейке Mk-41, широко ...
Одновременно быть сытыми и великими у нас не получится. Расходы бюджета в январе-апреле составили 5,141 трлн руб., а доходы всего лишь 3,908 трлн руб. В России только силовики сегодня не испытывают трудностей с финансированием. Всё остальное под нож. Нужно содержать большую армию. Мы г ...
В этой поистине исторической подборке — диптихи знаменитых певцов и музыкантов. При первом взгляде на эти портреты не сразу понимаешь, что происходит и кто этот симпатичный хитрый мальчуган на фотографии рядом с рыжим Боуи? Или во-о-от эта девочка с двумя хвостиками — неужели именно ...
... в Клинцах! Вот я всё говорю - провинция, провинция, а между тем! Ходят тут слухи, что скоро к нам приедет САМ! Да-да, прямо в маленький наш городок приедет. Тут большое мероприятие скоро намечается, фестиваль славянского единства. Раньше, много лет назад, его праздновали в том ...
"Давно было. Ещё до мобильных телефонов. Звонок в калитку, выхожу - над воротами возвышается парень - красавчик, незнакомый абсолютно, но лицо прям вот "наше", семейное. Очень характерные черты, у нас в роду через раз появляется такое лицо, брюнет, слегка азиатские черты, черные глаза, ...