рейтинг блогов

ИИ-работники - уже рядом!

топ 100 блогов giovanni131326.09.2025
Ai robot work in smart office © Kittipong Jirasukhanont - Canva.com_.png

”OpenAI” выпустила важнейший бенчмарк для оценки перспектив замещения рабочих мест искусственным интеллектом. Спойлер: перспективы гигантские. Но давайте обо всём по порядку.

Итак, бенчмарк, GDPVal, оценивает способности ИИ в решении разнообразных трудовых задач. Вполне обычных трудовых задач, взятых из реального мира.

Чтобы создать максимально репрезентативный набор таких задач, авторы действовали следующим образом. Они ориентировались на экономику США. И выбрали 9 крупнейших экономических секторов, каждый из которых даёт больше 5% ВВП.

Для каждого сектора авторы взяли топ профессий, ранжированных по совокупному фонду зарплат (т. е. наиболее массовые, с одной стороны, и высокооплачиваемые, с другой). Важное ограничение: профессия должна быть «цифровой». То есть трудовые задачи в ней должны быть цифровыми (выполняться с помощью компьютера/электроники). Впрочем, ”OpenAI” использовала довольно мягкий критерий: если 60% общего рабочего времени приходятся на такие компьютерные задачи, профессия уже относилась к «цифровым».

ИИ-работники - уже рядом! 7.png
В итоговый список попали 44 профессии: консьерж, специалист по комплайенсу, инженер- механик, юрист, медсестра, специалист по обслуживанию клиентов и так далее. Разумеется, в список попали и наши любимые разработчики ПО. Но это лишь одна из 44 профессий, поэтому ее влияние, влияние прогресса ИИ именно в этой области, не так велико. В общем, мы видим, что получился весьма богатый спектр специальностей, который выходит далеко за рамки только «офисных» профессий.

Затем ”OpenAI” наняла человеческих экспертов данных профессий. В среднем эксперты имели за плечами 14 лет стажа. И эти эксперты написали трудовые задания, типичные для данных профессий.

После тщательной, многоступенчатой проверки и улучшения заданий (минимум три этапа, в среднем — пять), у исследователей получилось 1320 заданий. В среднем каждое задание, по мнению экспертов, требует около 9 часов человеческой работы — то есть речь о весьма серьезных задачах. Медиана — 4 часа. А самые масштабные задания требуют несколько сотен часов — то есть недели человеческого труда. Впрочем, таких заданий в бенчмарке очень мало.

Пример задания можно посмотреть ниже. Слева — текст задания, который я перевел на русский. Справа — результат этого задания, сделанный человеческим экспертом.

ИИ-работники - уже рядом! 5.png
(кликабельно)

Взяв среднюю зарплату американцев в соответствующих профессиях, исследователи получили, что средняя «рыночная» стоимость задания составляет около 400 долларов. Заметим, что эта цифра недооценивает реальные издержки компаний на человеческий труд. Если мы добавим косвенные издержки — налоги на фонд оплаты труда, стоимость привлечения персонала и онбоардинга, содержание менеджеров по персоналу, аренду офисов и т. д. — реальные затраты могут вырасти еще в 1,4-1,5 раз.

Набор заданий разделили на открытую часть — 220 штук, и непубличную часть, которую ”OpenAI” будет использовать эксклюзивно, для собственных нужд. Для 220 публичных заданий, так называемой «золотой» части бенчмарка, была нанята еще одна когорта экспертов. Которые выполнили эти задания своими силами. Создав «человеческую базу» для сравнения с ИИ. Затем эти же задания «скормили» передовым ИИ-моделям. И начали сравнивать результаты человека и машины.

Получилось вот что:
ИИ-работники - уже рядом! 6.png

Самая способная ИИ-модель, Клод-4-Опус, в 44% случаев выполняет эти задания ЛУЧШЕ человека. Еще для 4% заданий результаты человека и машины сопоставимы.

Это настолько крупное достижение, что мне хочется подчеркнуть его еще раз: почти половину трудовых заданий для массовых профессий умственного труда машина делает не хуже людей. А многое — даже лучше.

Знаю, что многие скептически восприняли тезис, который я озвучивал ранее: корпоративный менеджмент попросту не умеет пользоваться всеми преимуществами технологий ИИ. Что ж, вот наглядное доказательство того, что уже может машина. Но топы показали свою полную неспособность внедрить эти достижения в бизнес-процессы.

Однако вернемся к рассматриваемому бенчмарку. Ведь дальше — больше. Во-первых, способности машины неравномерны для профессий из разных секторов экономики. Так, для государственной сферы, оптовой и розничной торговли машины уже преодолела 50%-ную отметку.

ИИ-работники - уже рядом! 8.png
Во-вторых — и это очень важный момент — стоимость выполнения задачи человеком безбожно проигрывает стоимости ИИ. Авторы постеснялись считать это соотношение для ведущей модели Клод-4-Опус, разработанной конкурентом, компанией «Антропик». Но для ее собственной модели, GPT-5, разница в стоимости составляет 474х в пользу машины!

Если примерно оценивать стоимость модели-лидера, Клод-4, ориентируясь на данные проекта Artificial Analysis, разрыв сокращается где-то в 4 раза, до 120х. Что по-прежнему означает разгромный результат для человеческих работников.

В-третьих, тестируемые модели никак специально не оптимизировались ни под условия бенчмарка, ни, в более глобальной перспективе, на замену широкого спектра человеческих профессий. До сих пор усилия были сосредоточены только на разработке ПО.

И простейшие меры по оптимизации, вроде добавления специального промпта, показывают уверенную прибавку к качеству работы ИИ. Так, для GPT-5 число заданий, где она выигрывает у человека, растёт на 4%.

В-четверых, остаётся повторить, что дальше — больше. Модели демонстрируют уверенный рост способностей с каждым годом. Даже без всякой целевой оптимизации, без целенаправленных усилий по совершенствованию именно в этой области.
ИИ-работники - уже рядом! chart.png
Наивная экстраполяция говорит, что 50%-ная планка будет взята уже в 1-м квартале 2026. 90%-ная планка сильно зависит от характера асимптоты, но медиана должна приходиться примерно на 2028 год.

И всё говорят о том, что это направление становится новым фокусом исследований, новой целью ИИ-компаний. Несомненно, результаты, показанные в этом бенчмарке, являются сюрпризом для их руководства. Они вряд ли ожидали, что автоматизация широкого спектра рабочих мест находится так близко. А раз она уже так близко — значит, стоит попытаться закрыть этот небольшой разрыв.

Мы уже знаем, что ”OpenAI” развернула серьезные усилия по расширению подобных бенчмарков, по сбору данных, позволяющих развивать такие способности машин. Нетрудно предположить, что аналогичные усилия будут прилагать ее конкуренты.

ИИ-работники - уже рядом! 9.png

С какими трудностями они могут столкнуться? Действительно ли этот разрыв настолько невелик, что уже через два года машины заменят всех офисных работников? Давайте теперь покритикуем представленные результаты.

Один из наиболее существенных его недостатков — все задания в нем являются отдельными, законченными проблемами с четко очерченными границами и четко прописанными требованиями. Этакими «сферическими конями в вакууме». Они не связаны ни с каким внешним широким контекстом. Они лишены интерактивности — уточнений, изменений, коллаборативного обсуждения.

Каждый знает, что реальные трудовые задачи далеко не всегда можно уложить в такие чёткие рамки. Далеко не всегда. Более того, трудно представить себе организацию, которая смогла бы вообще обойтись без такой интерактивности в выполнении задач, без диалога с их исполнителями.

Поэтому хоть представленные в GDPval задачи и правдоподобны, и имеют экономическую ценность — они всё-таки не совсем репрезентативны с точки зрения профессиональной работы. Здесь больше параллелей с рынком фриланса. Но и там степень интерактивности гораздо выше. Вдобавок фрилансовая схема организации работы составляет лишь небольшую часть экономики.

Ключевая проблема с автоматизацией профессий — в том, что целое больше, чем сумма его частей. Особенно для интеллектуального труда. Зачастую невозможно раздробить работу на ряд независимых, отдельных компонент. Ценность человеческого сотрудника часто в том, что он способен интегрировать эти мелкие составные части в единое целое. Интгегрировать широкий контекст работы. Понимать, как одно соотносится с другим.

И здесь машина пока явно проигрывает человеку. Более того, пока не очень ясно, как именно развивать в ИИ такие способности. Какие данные для этого нужны. Как выглядят бенчмарки для проверки таких навыков.

Без имени.png

Полагаю, что это станет главной трудностью на пути к созданию ИИ-работников.

Понимая это ограничение, ”OpenAI” пока рекламирует гибридную схему работы. В которой задание даётся ИИ-модельке, затем результат ее работы проверяется человеческим профессионалом, затем может быть еще несколько попыток добиться результата от ИИ, и в финале человек доводит получившееся решение до ума.

Согласно экспериментам компании, такой подход даёт рост производительности труда в 1,6 раза. Причем, чем сильнее ИИ-модель — тем больше прирост. Что обещает еще больший выигрыш уже в близком будущем.

ИИ-работники - уже рядом! 10.png

Экономический эффект весьма велик — потенциально не менее $1000 на одного работника в месяц. И ”OpenAI” нацеливается на создание продуктов для бизнеса с соответствующими ценниками.

Скорее всего, толк от этих продуктов действительно будет. И, скорее всего, рано или поздно ИИ-компании достучатся до неповоротливых топ-менеджеров, разучившихся внедрять технологические инновации. На какое-то время гибридная схема работы может стать самой распространенной.

Но долго это время не продлится. Способности машин продолжат расти. Фундаментальных ограничений на пути к полной автоматизации профессий не видно. Это будет непросто. Но это произойдёт.

И судя по нынешним достижениям, это произойдет скорее рано, чем поздно.


_______________________________________________________________
Друзья, я начал вести канал в Телеграм: Экономика знаний. Подписывайтесь!

Оставить комментарий

Предыдущие записи блогера :
Архив записей в блогах:
Знаете ли вы о том, что еще в далеком 1922 году в журнале Science and Invention была опубликована интересная статья об одном уникальном изобретении того времени, сделанном ...
Решение коалиционного правительства Великобритании отказаться от ранее запланированных налоговых льгот для издательской игровой индустрии вызвало гневную реакцию крупных разработчиков игр, которые теперь могут пересмотреть свои будущие ...
С https://matholimp.livejournal.com/1652753.html в продолжение https://matholimp.livejournal.com/2982831.html : В тот день я планировал прогуляться по лесным дорогам возвышенности Аугшземе от литовского Зарасая до латышского Илуксте . Но едва я вышел из Зарасая в сторону Стёлмуже, ...
Похищена неизвестными сестра известной гуманитарщицы Екатерины Корниенко и соосновательница фонда "Доброруссия". Возможно, причиной похищения послужил этот ролик, опубликованный 21 сентября. На следующий день, 22 сентября 2015 года пропала Валентина Корниенко – одна из основательниц , з ...
(стихи М.Ю.Макаров, музыка и исполнение нашего двора) https://disk.yandex.ru/d/BU31nzC9q9Fmeg    Признание – для гениев, конечно, Весьма необходимый атрибут ... Однако, каждый ... Искренне ... Сердечно ... Признаний ждёт себя... Хоть пять минут ... Признаний, что он друг ...