ИИ-работники - уже рядом!
giovanni1313 — 26.09.2025

”OpenAI” выпустила важнейший бенчмарк для оценки перспектив замещения рабочих мест искусственным интеллектом. Спойлер: перспективы гигантские. Но давайте обо всём по порядку.
Итак, бенчмарк, GDPVal, оценивает способности ИИ в решении разнообразных трудовых задач. Вполне обычных трудовых задач, взятых из реального мира.
Чтобы создать максимально репрезентативный набор таких задач, авторы действовали следующим образом. Они ориентировались на экономику США. И выбрали 9 крупнейших экономических секторов, каждый из которых даёт больше 5% ВВП.
Для каждого сектора авторы взяли топ профессий, ранжированных по совокупному фонду зарплат (т. е. наиболее массовые, с одной стороны, и высокооплачиваемые, с другой). Важное ограничение: профессия должна быть «цифровой». То есть трудовые задачи в ней должны быть цифровыми (выполняться с помощью компьютера/электроники). Впрочем, ”OpenAI” использовала довольно мягкий критерий: если 60% общего рабочего времени приходятся на такие компьютерные задачи, профессия уже относилась к «цифровым».

Затем ”OpenAI” наняла человеческих экспертов данных профессий. В среднем эксперты имели за плечами 14 лет стажа. И эти эксперты написали трудовые задания, типичные для данных профессий.
После тщательной, многоступенчатой проверки и улучшения заданий (минимум три этапа, в среднем — пять), у исследователей получилось 1320 заданий. В среднем каждое задание, по мнению экспертов, требует около 9 часов человеческой работы — то есть речь о весьма серьезных задачах. Медиана — 4 часа. А самые масштабные задания требуют несколько сотен часов — то есть недели человеческого труда. Впрочем, таких заданий в бенчмарке очень мало.
Пример задания можно посмотреть ниже. Слева — текст задания, который я перевел на русский. Справа — результат этого задания, сделанный человеческим экспертом.
Взяв среднюю зарплату американцев в соответствующих профессиях, исследователи получили, что средняя «рыночная» стоимость задания составляет около 400 долларов. Заметим, что эта цифра недооценивает реальные издержки компаний на человеческий труд. Если мы добавим косвенные издержки — налоги на фонд оплаты труда, стоимость привлечения персонала и онбоардинга, содержание менеджеров по персоналу, аренду офисов и т. д. — реальные затраты могут вырасти еще в 1,4-1,5 раз.
Набор заданий разделили на открытую часть — 220 штук, и непубличную часть, которую ”OpenAI” будет использовать эксклюзивно, для собственных нужд. Для 220 публичных заданий, так называемой «золотой» части бенчмарка, была нанята еще одна когорта экспертов. Которые выполнили эти задания своими силами. Создав «человеческую базу» для сравнения с ИИ. Затем эти же задания «скормили» передовым ИИ-моделям. И начали сравнивать результаты человека и машины.
Получилось вот что:

Самая способная ИИ-модель, Клод-4-Опус, в 44% случаев выполняет эти задания ЛУЧШЕ человека. Еще для 4% заданий результаты человека и машины сопоставимы.
Это настолько крупное достижение, что мне хочется подчеркнуть его еще раз: почти половину трудовых заданий для массовых профессий умственного труда машина делает не хуже людей. А многое — даже лучше.
Знаю, что многие скептически восприняли тезис, который я озвучивал ранее: корпоративный менеджмент попросту не умеет пользоваться всеми преимуществами технологий ИИ. Что ж, вот наглядное доказательство того, что уже может машина. Но топы показали свою полную неспособность внедрить эти достижения в бизнес-процессы.
Однако вернемся к рассматриваемому бенчмарку. Ведь дальше — больше. Во-первых, способности машины неравномерны для профессий из разных секторов экономики. Так, для государственной сферы, оптовой и розничной торговли машины уже преодолела 50%-ную отметку.
Во-вторых — и это очень важный момент — стоимость выполнения задачи человеком безбожно проигрывает стоимости ИИ. Авторы постеснялись считать это соотношение для ведущей модели Клод-4-Опус, разработанной конкурентом, компанией «Антропик». Но для ее собственной модели, GPT-5, разница в стоимости составляет 474х в пользу машины!
Если примерно оценивать стоимость модели-лидера, Клод-4, ориентируясь на данные проекта Artificial Analysis, разрыв сокращается где-то в 4 раза, до 120х. Что по-прежнему означает разгромный результат для человеческих работников.
В-третьих, тестируемые модели никак специально не оптимизировались ни под условия бенчмарка, ни, в более глобальной перспективе, на замену широкого спектра человеческих профессий. До сих пор усилия были сосредоточены только на разработке ПО.
И простейшие меры по оптимизации, вроде добавления специального промпта, показывают уверенную прибавку к качеству работы ИИ. Так, для GPT-5 число заданий, где она выигрывает у человека, растёт на 4%.
В-четверых, остаётся повторить, что дальше — больше. Модели демонстрируют уверенный рост способностей с каждым годом. Даже без всякой целевой оптимизации, без целенаправленных усилий по совершенствованию именно в этой области.

И всё говорят о том, что это направление становится новым фокусом исследований, новой целью ИИ-компаний. Несомненно, результаты, показанные в этом бенчмарке, являются сюрпризом для их руководства. Они вряд ли ожидали, что автоматизация широкого спектра рабочих мест находится так близко. А раз она уже так близко — значит, стоит попытаться закрыть этот небольшой разрыв.
Мы уже знаем, что ”OpenAI” развернула серьезные усилия по расширению подобных бенчмарков, по сбору данных, позволяющих развивать такие способности машин. Нетрудно предположить, что аналогичные усилия будут прилагать ее конкуренты.

С какими трудностями они могут столкнуться? Действительно ли этот разрыв настолько невелик, что уже через два года машины заменят всех офисных работников? Давайте теперь покритикуем представленные результаты.
Один из наиболее существенных его недостатков — все задания в нем являются отдельными, законченными проблемами с четко очерченными границами и четко прописанными требованиями. Этакими «сферическими конями в вакууме». Они не связаны ни с каким внешним широким контекстом. Они лишены интерактивности — уточнений, изменений, коллаборативного обсуждения.
Каждый знает, что реальные трудовые задачи далеко не всегда можно уложить в такие чёткие рамки. Далеко не всегда. Более того, трудно представить себе организацию, которая смогла бы вообще обойтись без такой интерактивности в выполнении задач, без диалога с их исполнителями.
Поэтому хоть представленные в GDPval задачи и правдоподобны, и имеют экономическую ценность — они всё-таки не совсем репрезентативны с точки зрения профессиональной работы. Здесь больше параллелей с рынком фриланса. Но и там степень интерактивности гораздо выше. Вдобавок фрилансовая схема организации работы составляет лишь небольшую часть экономики.
Ключевая проблема с автоматизацией профессий — в том, что целое больше, чем сумма его частей. Особенно для интеллектуального труда. Зачастую невозможно раздробить работу на ряд независимых, отдельных компонент. Ценность человеческого сотрудника часто в том, что он способен интегрировать эти мелкие составные части в единое целое. Интгегрировать широкий контекст работы. Понимать, как одно соотносится с другим.
И здесь машина пока явно проигрывает человеку. Более того, пока не очень ясно, как именно развивать в ИИ такие способности. Какие данные для этого нужны. Как выглядят бенчмарки для проверки таких навыков.

Полагаю, что это станет главной трудностью на пути к созданию ИИ-работников.
Понимая это ограничение, ”OpenAI” пока рекламирует гибридную схему работы. В которой задание даётся ИИ-модельке, затем результат ее работы проверяется человеческим профессионалом, затем может быть еще несколько попыток добиться результата от ИИ, и в финале человек доводит получившееся решение до ума.
Согласно экспериментам компании, такой подход даёт рост производительности труда в 1,6 раза. Причем, чем сильнее ИИ-модель — тем больше прирост. Что обещает еще больший выигрыш уже в близком будущем.

Экономический эффект весьма велик — потенциально не менее $1000 на одного работника в месяц. И ”OpenAI” нацеливается на создание продуктов для бизнеса с соответствующими ценниками.
Скорее всего, толк от этих продуктов действительно будет. И, скорее всего, рано или поздно ИИ-компании достучатся до неповоротливых топ-менеджеров, разучившихся внедрять технологические инновации. На какое-то время гибридная схема работы может стать самой распространенной.
Но долго это время не продлится. Способности машин продолжат расти. Фундаментальных ограничений на пути к полной автоматизации профессий не видно. Это будет непросто. Но это произойдёт.
И судя по нынешним достижениям, это произойдет скорее рано, чем поздно.
_______________________________________________________________
Друзья, я начал вести канал в Телеграм: Экономика знаний. Подписывайтесь!
|
|
</> |


Как выбрать погружной насос для перекачки дизельного топлива и бензина
В ООН "потеряли" документы о ядерных переговорах СССР и США
Земля круглая, а вода мокрая (небольшой ликбез)
Осенние виды Дворцового парка...11/30
О как...
Любовь Успенская на Мичуринском
ОРЕСТ КИПРЕНСКИЙ. ЧИТАТЕЛИ ГАЗЕТ В НЕАПОЛЕ. 1831
Кто такие истинные пастыри Божии
Ждут от нас рыбки котики от haniyan0891

