Переизбыток ИИ-контента убивает достоверность. «Извиваются прыщи»

Появилась в моей ленте такая заметка: «Как переизбыток ИИ-контента может «убить» интернет?» Вот её текст.
Алгоритмы питаются контентом, который создают другие алгоритмы. Базы и данные для ИИ все чаще становятся неоднозначными. Ученые уже фиксируют: искусственный интеллект может сам себя обнулить — и заодно убить интернет.
Популярность ИИ продолжает расти, но вместе с ней растет и тревога. Исследования уже показывали: если генеративные модели учатся на данных, созданных другими ИИ, они начинают деградировать.
Это явление назвали «коллапс модели». Его последствия могут затронуть не только технологии, но и саму суть цифровой информации.
Как ИИ может убить интернет
Ученые обнаружили, что уже на пятом цикле «самообучения» ИИ-ответы становятся заметно хуже, а к девятому — полностью теряют смысл.
Алгоритм буквально «засоряет» сам себя и перестает распознавать даже базовые закономерности. Это особенно опасно, учитывая, что уже сегодня большая часть контента онлайн создается машинами. Например, в прошлые годы предсказывалось, якобы в 2025 году ИИ должен производить до 90% интернет-текстов.
Если тренд сохранится, ИИ будет обучаться на искаженной, низкокачественной информации — и со временем не сможет отличать реальность от вымысла. Эксперты уверены, что проблема уже очевидна: от переведенных машиной статей до искаженных описаний википедий.
Один из наглядных примеров — статья про готические шпили XIV века, которая через 9 циклов обучения ИИ превратилась в набор фраз о разноцветных зайцах.
Почему ИИ может деградировать
Суть деградации в том, что ИИ теряет доступ к «минорным» данным — менее распространенным фактам и объектам. Например, редкие породы собак исчезают из выборки, уступая место популярным в ответах от ИИ-алгоритмов.
Так, алгоритм запоминает лишь то, что повторяется, и постепенно сужает свое представление о мире. В итоге — искажение, обобщение, «галлюцинации» и рост недостоверной информации. Чтобы избежать цифрового обнуления, некоторые специалисты предлагают обеспечить доступ ИИ к новым, оригинальным данным, которые будут создавать исключительно люди.
Однако это сложно: с каждым днем становится труднее отделять тексты, написанные человеком, от машинных. Платформы запирают контент, авторские права ограничивают доступ, а объемы «искусственной информации» продолжают расти. Пока решений нет.
Возможно, интернету понадобится система верификации — вроде блокчейна или специальной «печати доверия» — чтобы отличать реальность от симуляции. Иначе нас ждет не просто крах ИИ, а крах самой идеи истины в цифровом пространстве.
Юрий Гандрабура. https://masterok.livejournal.com/12389427.html
ЧТО МОЖНО СКАЗАТЬ?
Эта заметка содержит кликбейтные фразы: обнулить, убить интернет — это слишком сильно сказано. Убивается не интернет, а достоверность. Обнуляется психология истины, психология восприятия факта. В норме человек в сутки должен воспринимать столько новых фактов, чтобы переварить их, сколько раз он кушает за один присест. Это 1-10 приёмов пищи. Но сейчас люди держат в руке мобильник, сидят за компьютером, и скроллят тысячи фактов в сутки.
Проблема в ухудшении сервиса предоставления сведений. Проблема в захламлении Сети некачественной информацией, и её вторичного использования. Проблема в утрате авторства, когда не сыщешь первоисточника. Поисковик и ИИ не удосуживается выяснить, «откуда ноги растут» — хотя именно такая сеть могла бы это осуществить.
Проблема в то, что ИИ стал навязывать ложные сведения, придавая им достоверную форму. Он мистифицирует. Он навязывает волю, оценочные суждения. ИИ-аналитик в Яндексе имеет психологию глумливого подростка, он прилепляет к фотографиям тэги — фальшивые, похабные, запутывающие. Для человека, не владеющего русским языком, это настоящая ловушка. И это не недостаток системы, а заданная стратегия.
В поисковиках появился ИИ-консультант, который даёт ответ — сырой, зачастую ложный. Это похоже на ранний, несовершенный этап. Помнится, онлайн-переводчики писали всякую чушь, а мы это высмеивали. Сегодня онлайн-переводчики дают вполне приемлемый перевод.
Консультант раздражает тем, что выдаёт раньше поисковых ссылок, выдаёт безапелляционный и ложный (или неточный, неполный) ответ. А если не знает ответ — выкручивается, как студент с подвешенным языком.
ИЗВИВАЮТСЯ ПРЫЩИ
Вот личный пример. Недавно я изучал стих Брюсова про то, как извиваются угри, и мне надо было найти полный текст стихотворения — по кусочку фразы. Раньше поисковик выдавал ссылку, а теперь он меня проконсультировал следующим образом.

Итак, гугл мгновенно изобрёл «идиоматическое выражение». На самом деле 1) никакого «данного контекста» здесь нет, это просто словосочетание. 2) Идиома — это консервативный элемент языка, который очень долго (в отличие от лексемы) входит в лексикон, и существует там веками. То есть консультант лжёт не только по существу ответа, но и по форме, конструируя ложные умопостроения.
Досужему человеку такая реакция гугла смешна. Но человека науки и образования она раздражает. А для учащихся такой «гуру» разрушителен. Если же этот ответ, спонтанный и разовый, застрянет в базах данных, на нём будут основаны другие ответы.
Лексикон, корпус текстов, язык и национальная культура от этого плавятся, размываются, «плывут». Здесь, вероятно, получают преимущество культуры, слабо встроенные в евроцентрический интернет. Например, урду-язычные, корейские, индийские и т.д. Очень трудно, например, докопаться, что думают по какому-то вопросу африканцы или индонезийцы, а ведь это миллиарды человек.
НАУЧНАЯ ПРОВЕРКА
В науке давно уже созданы механизмы верификации: авторство, учёные степени, репутация автора и издания, его добросовестность, рецензирование публикаций, много уровней редактирования, апробации, рекомендации учёного совета, научная этика и законодательство и т.д.
Но с развитием всеобщего образования, массовых технологий и интернет-изданий — эта система расплылась. Теперь на планете есть миллиарды людей с дипломом, 100 млн с учёной степенью, миллионы изданий. Одна научная публикация может иметь десятки и сотни авторов. На кого ссылаться? Кому предъявлять? «Кто сшил костюм?» Возвращаются те времена (начала двухтысячных), когда достойным ответом на «где узнал?» считалось «прочитал в интернете».
Конечно, инфосфера с этим справится сама, за счёт эволюционных и системных механизмов. Но есть силы, которые стремятся сделать любую проблему — коварной, злостной, нерешаемой.
|
</> |