
Блеск и нищета ChatGPT: обучающие интернет-яды, ЛГБТКонсультант+, и

40 лет назад в книге "The Creative Computer. Machine intelligence and human knowledge" (в русском переводе "Компьютер творец") Donald Michie (Дональд Мичи), один из основателей искусственного интеллекта, как концепции, автор методики программирования многошаговых интеллектуальных игр (MENACE) основатель Turing Institute в Глазго, The Human Computer Learning Foundation, и т.д., и т.п. - уделил огромное внимание вопросу, который считал ключевым для ИИ. Это вопрос о внутренних моделях окружающего мира, о модели построения/корректировки таких моделей, и о рекурсивном применении такого моделирования в интеллектуальной системе. Без внутренней модели, связывающей возможные явления внешнего мира (или вообще предметной области) - нет интеллекта. Подобие интеллекта, которое можно создать на базе модели сетей Хопфилда путем формирования больших решающих таблиц, "обучаемых" на примерах - окажется имитацией, опасной для пользователя, поверившего в "разумность" такого подобия.
Такая таблица неизбежно окажется отравлена информационными ядами, которые всегда содержатся в пространстве больших данных. Пример - как такое может выглядеть:
КБ вчера в 19:50. Всезнающий чат-бот GPT-4 исправил гейскую аббревиатуру ЛГБТК+. Расшифровка убила


https://vk.com/wall-67580761_9216488
Итак: отравление данными. Механизм подобных фейлов ИИ кратко объяснен 5 апреля в статье о сетевых экспериментах Флориана Трамера из Швейцарской высшей технической школы Цюриха (The Economist) - см. фрагментарный перевод:
Apr 5th 2023 It doesn’t take much to make machine-learning algorithms go awry. The rise of large-language models could make the problem worse
Не так много надо, чтобы заставить алгоритмы машинного обучения пойти наперекосяк. Появление больших языковых моделей может усугубить проблему
...Алгоритмы, лежащие в основе современных систем искусственного интеллекта (ИИ), нуждаются в большом количестве данных для обучения. Большая часть этих данных поступает из открытой сети, что, к сожалению, делает сайт уязвимым для кибератак, известных как «отравление данных». Это означает изменение или добавление лишней информации в набор обучающих данных, чтобы алгоритм научился вредному или нежелательному поведению. Подобно настоящему яду, отравленные данные могут оставаться незамеченными до тех пор, пока не будет нанесен ущерб.
...Доктор Трамер работал с исследователями из Google, nvidia и Robust Intelligence, фирмы, которая создает системы для мониторинга искусственного интеллекта на основе машинного обучения, чтобы определить, насколько осуществимой может быть такая схема отравления данных в реальном мире. Его команда купила несуществующие веб-страницы, которые содержали ссылки на изображения, используемые в двух популярных наборах данных изображений из Интернета. Заменив тысячу изображений яблок (всего 0,00025% данных) случайно выбранными изображениями, команда смогла заставить ИИ, обученный на «отравленных» данных, постоянно ошибочно маркировать изображения как содержащие яблоки. Замена того же количества изображений, которые были помечены как «небезопасные для работы», на безвредные изображения привела к тому, что искусственный интеллект пометил подобные безобидные изображения как опасные.
https://www.economist.com/science-and-technology/2023/04/05/it-doesnt-take-much-to-make-machine-learning-algorithms-go-awry
Все сказанное относится к псевдо ИИ, построенному с игнорированием постулатов Мичи о необходимости внутренней связной модели мира. При такой методической ошибке, не возникает того, что принято называть "пониманием ситуации".
Да, "обученная" таблица больших данных может в ответ на запрос генерировать связный текст и демонстрировать кажущиеся рассуждения - хотя в действительности она лишь подставляет заранее имеющиеся фрагменты из ячеек.
Огромный массив данных позволяет найти готовый ответ на любой хоть немного типовой вопрос.
Реальность выявляется при не-типовом взаимодействии, когда в ячейках нет ответа.
Если кто-то желает проверить - вот, например, вариант.
Спросите ChatGPT о механизме коитуса и последующего зачатия у гептасексуальных (семиполых) марсиан из НФ-новеллы Клиффорда Саймака "Мираж".
Новелла доступна в сети.
"Семь крошечных существ семи различных полов. И все семь необходимы для продолжения рода. Шестеро безуспешно искали Седьмого... Странная физиология, – доказывал он себе, – требующая участия семи личностей, приводит, вероятно, к тому, что зарождение потомства превращается в сложный и длительный процесс, немилосердно долгий с человеческой точки зрения. "
И больше никаких подсказок.
Я не знаю, что выпадет из ChatGPT по этому вопросу - но уверен: получится весело.
(Продолжение следует)
...Такие дела...
|
</> |
