Архитектурные ограничения LLMs

топ 100 блогов spydell02.12.2025

Критерий истинности в LLMs

Важнейшая тема, которую несколько раз затрагивал, но не раскрывал подробно, буду устранять пробел в повествовании.

LLM - генератор токенов на статистическом распределении, т.е. «критерием истинности» в LLM является наиболее вероятный вектор распределения, где истина для машины – это не более, чем статистически доминирующий паттерн.

Критерий истинности для LLMs и критерий истинности для людей – это две разные сущности, которые часто не совпадают, хотя в большинстве случаев коррелируют.

В каждый момент времени для генерации очередного токена архитектура нейросетей выстроена таким образом, что всегда ищется вектор распределения, который статистически наиболее ожидаем в данном контексте через динамическую балансировку вероятностями.

Это означает, что контекст имеет значение, а из этого вытекает, что изначально неверный, ошибочный путь (ранее сформированная последовательность токенов) непрерывно экстраполируется в будущем (но об этом в других материалах), наследуя ошибки из-за отсутствия встроенного механизма самокоррекции.

Говоря математически, «Истина» в LLM – это математический оптимум функции вероятности в конкретном локальном контексте.

Для нейросети «правильный» ответ – это не тот, который соответствует физической реальности, а тот, который обладает наименьшей перплексией (наименьший статистическим выбросом) и наибольшим весом в финальном векторе распределения.

LLM – это машина, оптимизирующая когерентность (связность), а не соответствие фактам. Связи с реальностью в этом нет, есть только связь с накопленной статистикой прошлых текстов.

 Как перевести на человеческий язык?

Если набор токенов «Париж» имеет вероятность 0.99 после выражения «Столица Франции — ...», это для модели абсолютная истина, но, если модуль обучать на контексте средневековья, где Земля – плоская, Солнце вращается вокруг Земли и еще сотни примеров антинаучных заблуждений, для LLM – истиной будет то, что Земля – плоская. 

Это означает, что для LLMs правдой будет то, что встречается чаще всего. Соответственно, любой популярный нарратив в сети воспринимается, как истина вне зависимости от степени достоверности.

Из этого напрямую вытекает, что LLM усредняет и обобщает нарративы, а не ищет истину. Понятие «истина» математически не вшито в архитектуру LLMs

Чтобы добавить вариативность ответов, имитируя творчество и креатив, в архитектуру LLMs встроен цифровой шум в виде параметра Temperature, создавая искусственный вектор распределения, но не меняя фундаментального принципа. 

Архитектурно (почти все LLMs построены по единому принципу) LLMs оптимизированы генерировать текст, который выглядит правильным для человека, нравится человеку, пытаясь вызвать положительный фидбэк.

•  Популярные заблуждения (мифы, городские легенды, упрощения) часто имеют очень стройную, повторяющуюся структуру повествования.

•  Сложная научная истина часто контринтуитивна, редко встречается и требует специфической терминологии.

Для исправления встроенного бага в систему существует концепция постобучения в виде RLHF (Reinforcement Learning from Human Feedback), т.е. обучение с учителем/подкреплением. 

Иногда в процессе RLHF инженеры вручную правят популярные заблуждения и теории заговора к контринтуитивной и неприятной истине (с человеческой точки зрения).

Однако, зачастую, RLHF не учит модель новым фактам, а учит модель скрывать или приоритизировать уже имеющиеся знания в зависимости от того, что считается «хорошим» ответом по версии разработчиков. LLMs – по сути, тонкая настройка (fine-tuning) уже сформированной нейронной структуры.

RLHF учит, что можно говорить, а что нельзя и главное – как говорить (тональность, структура повествования, форматирование ответа, глубина раскрытия и т.д.), где навешиваются фильтры безопасности, цензуры, полезности. Именно на этот этапе LLMs учат «угождать» клиентам и быть полезным в задачах.

В процессе RLHF модель часто учится, что «хороший ответ» — это тот, который подтверждает убеждения пользователя, а не тот, который является объективной истиной.

Почему неустранимы галлюцинации LLMs?

Галлюцинации в LLM неустранимы (в рамках текущей авторегрессионной архитектуры трансформеров), потому что они являются не «багом» (ошибкой), а неотъемлемой «фичей» (свойством) работы вероятностного генератора.

Галлюцинации – это фундаментальная, архитектурная основа LLMs, их можно снизить, но нельзя устранить. 

Галлюцинация возникает тогда, когда неверная последовательность токенов имеет высокую статистическую вероятность (например, из-за похожести на другие тексты). Модель не может «остановиться и проверить», потому что у неё нет модуля верификации и самокоррекции, есть только модуль генерации.

В фазе предварительного обучения (pre-training) для LLMs формируется машинная «картина мира» через компрессию, сжатие экзабайт данных различной модальности в гигабайты или терабайты весов (параметров).

Невозможно восстановить исходный сигнал без потерь, если коэффициент сжатия составляет 100:1 или 1000:1.

Когда вы спрашиваете точный факт, модель не достает его из базы данных (её нет). Она пытается реконструировать (аппроксимировать) информацию из размытых слепков весов.

Галлюцинация - это артефакт реконструкции. Как JPEG добавляет «шум» на краях объектов, так и LLM добавляет вымышленные детали там, где информация в весах «размыта» или недостаточно представлена. Устранить это можно только отказавшись от сжатия, но тогда модель перестанет быть генеративной.

Механизм, позволяющий модели галлюцинировать, – это тот же самый механизм, который позволяет ей быть креативной и обобщать.

Если из LLMs изъять «механизм бредогенерации», LLMs превратится в справочное бюро без возможности контекстного развертывания.

Не существует лимита галлюцинаций, LLMs никогда не остановится в потоке бреда, т.к. нет механизма обратной связи. Человек проверяет или расщепляет свои галлюцинации и заблуждения об объективную реальность через обратную связь с окружающей действительностью, через органы чувств и физический опыт. 

LLM не имеет выхода в реальность. Для неё «реальность» — это то, что статистически вероятно в тексте. У неё нет внешнего референса для заземления и верификатора, чтобы сверить свой прогноз.

Точность генерации LLMs тем выше, чем выше экспозиция данных в обучающей выборке. Другими словами, чем чаще представлен факт, процесс или событие в обучающих данных (популярные факты, которые повторяются миллиарды раз: «Небо чаще всего голубое, а не красное», «2+2=4» и т.д.)

Но как только запрос касается редких знаний (специфический научный факт, малоизвестные события, альтернативный взгляд на события, биографии малоизвестного человека и т.д.), плотность данных падает.

•  В этой зоне модель начинает заполнять пробелы наиболее вероятными шаблонами.

•  Поскольку архитектура требует выдать ответ (complete the sequence), она вынуждена выдумать правдоподобное завершение, вместо того чтобы сказать «я не знаю» (если её специально жестко не натренировали на отказ, что тоже не всегда работает).

В LLMs относительно достоверно то, что имеет наибольшее представление в обучающих данных, но по мере снижения плотности данных – растут галлюцинации. 

Оставить комментарий

Архив записей в блогах:
уже вторую неделю у части общественности подгорает от истории Натальи Наговицыной, которая не дождалась помощи на Пике Победы. подгорает так, будто несчастную альпинистку спасали за их деньги. щас я выскажусь. и если с моим мнением не согласны - сразу забивайте в навигатор 14°24′28″ ю. ...
День Победы это главный русский праздник, праздник Победы Добра над Злом. И это не просто громкие слова, а историческая и метафизическая реальность. Наш народ веками жил в таких землях, где главный враг человека - природа. Жесткие условия климата заставляют держаться друг за друга и ...
Как правило, самовлюбленного, эмоционально незрелого человека видно сразу или примерно сразу. Особенно если он не блещет умом и в своих фантазиях о себе, необыкновенном, сильно оторван от реальности. Вот почему история читательницы уместилась в три свидания. Читаем! *** "С Иваном мы ...
На волне левых атак против еврейских ферм в Самарии и Иудее - ночью в эту субботу арабы проникли на территорию фермы в Биньямине и отравили стадо овец. Вы не прочтете об этом ни в Маариве, ни в Хаарец. Источник ...
И об этом нам вчера открыто заявили на ведущем канале "Россия 1" прямо в "Вестях". Не совсем, надо признаться, открыто. Ибо официально информацию, что интервьюируемая в сюжете Екатерина Тихонова, руководитель центра "Иннопрактика" (в рамках которого функционирует "Нейроцентр"), - ...