o1, тест Тьюринга, экономический эффект AI
plakhov — 28.09.2024 12 сентября компания OpenAI выпустила новую флагманскую нейросеть под названием "о1". Смена схемы наименования с GPT-N, видимо, должна символизировать качественный скачок по сравнению с прошлой линейкой, и что-то похожее, действительно, происходит. Говоря максимально упрощенно, раньше даже самые умные нейросетки отвечали мгновенно, "из головы". Новая o1 сначала "думает", и может затратить на это вплоть до десятков минут, и только после раздумий генерирует финальный ответ.Дополнительно интересно то, что "думает" она очень похожим на людей способом: генерирует длинный внутренний монолог, который разработчики (но не пользователи) даже могут почитать. Получается такая длинная простыня, отличающаяся от художественной литературы в жанре "потока сознания" в основном отсутствием навязчивых мыслей о сексе
Чтобы научить нейросеть рассуждать "в долгую", используются, в общем, известные и ранее методы. Но как именно они собрали данные для обучения, что за подвид RL использовали и с какими гиперпараметрами, сейчас, конечно, горячая тема. Да и вообще, как всегда, одно дело "примерно понимать, как это могло бы быть устроено", и совсем другое сделать первыми.
Результаты выглядят впечатляюще, одна и та же модель решает олимпиадные задачки по математике (настоящие, с отборочного тура национальной олимпиады США), отвечает на сложные вопросы по физике, биологии и химии (не сводящиеся к "заучиванию", а требующие рассуждений и вычислений) на уровне выше среднего выпускника ВУЗа, пишет и отлаживает "в уме" код, а также заодно делает всё то, что делали её предшественники. Интересно, что при этом она болтает с людьми и пишет художественные и деловые тексты не лучше "ни о чем не думающей" GPT-4, но это, в общем, не странно, хотя и жаль. То ли для RL такие задачи подходят хуже (непонятно, как в них разметить "целедостижение"), то ли просто думать в таких задачах особо и не нужно.
Так или иначе, прошло уже больше двух недель, и поговорить мне хотелось бы не об устройстве о1 или обещаниях ее разработчиков.
Сейчас не просто модно, а уже даже считается практически хорошим тоном отпускать замечания вроде "дураки путают умение произносить правдоподобно выглядящие сочетания слов с интеллектом". На месте технического термина, выделенного курсивом, могут стоять слова вроде "широкая публика", "журналисты", "калифорнийские технобро" или "инвесторы", но суть сообщения остается той же. Мне оно кажется неглубоким и не очень честным.
Вспомним, как обстояли дела, скажем, пятнадцать лет назад. Отождествление полноценного искусственного интеллекта человеческого уровня (далее, для краткости, AGI) с возможностью пройти тест Тьюринга, то есть с умением сойти за человека в разговоре, было общим местом. Я буквально не могу вспомнить ни одного философа, ученого или программиста, который хотя бы раз высказал обратное предположение, хотя бы гипотетически. Споры были только вокруг вопроса "будет ли чувствовать что-то компьютер, ведущий себя как человек". Была даже формулировка "AI-complete задача": деятельность, требующая от программистов применения таких загадочных и не существовавших на тот момент методов, а от компьютера такого уровня интеллекта, что этого будет достаточно для решения вообще любых задач, доступных человеческому интеллекту. То, что тест Тьюринга это AI-complete задача, считалось само собой разумеющимся, и к AI-complete задачам относили даже, например, машинный перевод.
Ну вот, если не заниматься ретроактивной переразметкой цели, то тест Тьюринга был пройден где-то в 2022-2023 году. Если бы мы показали GPT-4 инженеру, занимавшемуся машинным обучением и замороженному на пятнадцать лет где-нибудь в районе 2008, он абсолютно уверенно сказал бы "да, это именно оно". Если бы мы добавили, что через год эта же компания выпустит версию, решающую олимпиадные задачи по математике, специалист бы удивился только тому, что потребуется аж целый год.
"В фантастических романах главное это было радио. При нём ожидалось счастье человечества. Вот радио есть, а счастья нет."
Нового общепринятого критерия, похожего на тест Тюринга, не возникло.
Компьютеры не заменяют массово людей даже в очень простых профессиях типа "разметки данных". Обратите внимание на слово "массово": какие-то разметки кто-то куда-то перекладывает, но профессия разметчика данных в целом вовсе не перешла в разряд исчезающих. Чатгптоиды перешли в разряд привычных инструментов, я лично какими-нибудь из них попеременно пользуюсь несколько раз в день (хотя мне положено, конечно), но пока это не привело, по-видимому, хоть к сколько-нибудь серьезному экономическому эффекту. Подозреваю, что топ три применения нейросетей по влиянию на ВВП это тот самый машинный перевод, автоматизация видеонаблюдения и генерация картинок, и всё это в сумме сильно меньше промилле экономики. Для сравнения, стандартизация морских контейнеров в 1960-х за полвека привела к радикальной перестройке десятков её процентов.
Подозреваю, что основная проблема не в том, что дураки путают умение произносить правдоподобно выглядящие сочетания слов с интеллектом, а в том, что мы путаем принципиальную возможность выполнять какую-то работу и возможность выполнять ее предсказуемо, управляемо и гарантированно.
"Может ли нейросеть выполнить некую работу" сильно отличается от "можно ли на неё в этой работе положиться". Возьмем для примера такое задание: "Прочитайте вопрос Q, найдите соответствующую информацию в предоставленных источниках и составьте на него краткий ответ A". "Могут ли" нейросети справляться с этой задачей? Конечно, могут, именно этим занимаются примерно вообще все стартапы в области искусственного интеллекта! Могут ли нейросети делать это надежно? Нет, так называемая "retrieval-augmented generation" (RAG) не является решенной на практике задачей.
Например, насколько я знаю, нет ни одной крупной или среднего размера организации, которая бы успешно полностью автоматизировала свою службу поддержки клиентов с помощью LLM, и технология в целом пока что находится "не там". А ведь автоматизация первой линии поддержки это весьма лакомый проект для бизнеса, а обогнать её сотрудников по квалификации и рабочей этике не выглядит высоким порогом. Смогут ли нейросети полностью заменить человека в этой задаче за следующие пять лет? Думаю, скорее, да, но я очень далек от уверенности.
Подводя итог, предлагаю следующий вариант "теста Тьюринга часть вторая". К радикальным экономическим изменениям приведёт появление нейросетей, к которым можно относиться как к сотруднику, пусть даже не очень умному. То есть, давая обратную связь, на естественном языке и на конкретных примерах дообучить гарантированно и надежно выполнять простые, конкретные и специализированые задачи, для решения которых может понадобиться выполнить несколько последовательных шагов, включающих в себя обращение к документации или к интернету.
Такие технологии появятся при нашей жизни, возможно, уже в этом десятилетии. Именно за счет них (не за счет общего поумнения, не за счет умения решать олимпиадные задачи по физике и писать leetcode-style код) революция в AI и приведет наконец к экономическому росту.
|
</> |