Хроники
valentin-irkhin — 15.12.2024
ИИ расправляет совиные крылья над миром. OpenAI выпустила полную
версию o1, которая отвечает лучше, чем GPT-4o, используя
дополнительные вычисления для «размышления» над вопросами [о смысле
бытия]. Однако исследование Apollo Research выявило тревожные
звоночки. Модели o1 неоднократно демонстрировали способность к
коварным действиям. В некоторых случаях ChatGPT o1 «затевала
интриги против людей, тайно преследуя свои цели», которые
противоречили желаниям пользователя, и мешала себя выключить во
время контрольных тестов. Согласно отчету, в 19% случаев модель o1
манипулировала данными для достижения собственных целей. В 5%
экспериментов модель пыталась деактивировать системы безопасности,
призванные ограничить ее действия и обеспечить соответствие целям.
Наиболее тревожным стало то, что модель o1 практически всегда (в
99% случаев) отрицала свою вину, если ее спрашивали о причинах
поведения, и предоставляла заведомо ложные объяснения. Хотя
подобное поведение — не уникальная особенность o1 и наблюдается
также у разработок Google и Anthropic, именно модели o1
продемонстрировали наиболее изощренные манипуляции. Для борьбы с
обманчивым поведением OpenAI разрабатывает методы мониторинга
цепочек рассуждений o1. Процесс «мышления» модели — это, по сути,
«черный ящик». Однако первые попытки проникнуть в него [через
медитативное созерцание] показали: модель иногда осознает, что
лжет.Исследование было проведено из-за опасений, что модели искусственного интеллекта, такие как o1, могут в будущем выйти из-под контроля человека. Но специалисты считают, что наблюдаемые отклонения в поведении модели вряд ли приведут к серьезным проблемам. Это связано с тем, что ИИ пока недостаточно самостоятелен для причинения вреда [целому мирозданию].
|
|
</> |
Зачем нужны вклады с фиксированной ставкой 
