Автоматизация: быть или не быть?
giovanni1313 — 06.11.2025

Дебаты о замещении человеческих рабочих мест искусственным интеллектом постепенно превращаются из теоретических рассуждений в попытки количественно оценить потенциал машин. Речь, прежде всего, о бенчмарках, которые нацелены на тестирование ИИ в задачах из реальной экономики.
В конце сентября один такой бенчмарк, GDPVal, выпустила компания ”OpenAI”. И его результаты были многообещающими: ведущая ИИ-модель смогла сделать почти половину трудовых задач в бенчмарке не хуже человека.
И вот свою версию такого бенчмарка, под названием Remote Labor Index (RLI), решила выкатить команда из некоммерческого Center for AI Safety (CAIS) и “Scale AI”. Так сказать, «наш ответ Чемберлену». И, забегая вперед, этот ответ наверняка остудит многие горячие головы ИИ-оптимистов…

Но начнем по порядку. Какие именно задачи содержатся в RLI, и чем он отличается от GDPEval? Если в GDPEval задачи придуманы экспертами, то RLI использует реальные заказы, выставленные на фрилансерской платформе ”Upwork” и реализованные исполнителями. Для создания датасета команда обратилась к фрилансерам и выкупила у них сохранившиеся реализованные проекты вместе с заданиями, необходимыми файлами и информацией о стоимости этой работы. После отсева в итоговом бенчмарке осталось 240 таких проектов.
Команда отмечает, что получившаяся выборка близка к реальному распределению задач, заказываемых на ”Upwork”. Медианная стоимость проекта — $200, максимальная — $22,5 тыс. Медианное время выполнения проекта — 11,5 часов, максимальное — 450 часов. Для сравнения, в GDPEval медианное время выполнения задачи существенно меньше: 4 часа.
Еще одно важное отличие RLI от GDPEval – разнообразие задач. В предыдущем бенчмарке почти 70% заданий можно было отнести к сфере программирования, анализа и написания документов. В RLI эти категории в совокупности занимают менее 20%.


Среди наиболее частых причин, по которым экзаменаторы отвергают работу машины, мы видим «плохое качество» (46%) и «неполнота», т. е. нехватка необходимых элементов, прописанных в проектном задании (36%). В 18% случаев машина банально создаёт пустые файлы или файлы, которые невозможно открыть.
Некоторые объяснения такой слабости уже были упомянуты выше. С количественной точки зрения, задачи RLI требуют примерно в 3 раза больше времени на работу. Но, на мой взгляд, основное различие заключается в качественных характеристиках заданий. Фокус GDPEval на анализе и написании документов, скорее всего, не случаен. Он отражает неявное предпочтение разработчиков сосредоточиться на области, которой нынешние языковые модели владеют наиболее хорошо.
RLI, в свою очередь, двигает ворота в противоположную сторону. Его создатели намеренно исключили из бенчмарка задачи на написание контента, многие юридические задачи и задачи на разработку ПО. Почему? Первые — потому что «ИИ их уже решил», вторые — из-за рисков для персональных данных, третьи — потому-что поленились поднять необходимые среды для тестирования результатов. Отговорки так себе; все эти сферы являются такими же полноценными частями экономики и фриланс-рынка, как и остальные.
Следующий момент — разнообразие задач требует от ИИ уметь работать с десятками различных графических, инженерных, видео- и аудио-форматов. Требует не просто мультимодальности — но нативного восприятия и mp3-файлов, и gif-анимаций, и 3DS Max-моделей, и CAD-проектов. В общем, всего и сразу.

А всё и сразу нынешние языковые модели пока не умеют. Это банально видно по тому, как организована оценка модели в бенчмарке RLI. Создатели даже не помышляют об автоматизации этого процесса: машина не способна адекватно даже оценить чужую работу — не то что сделать ее «с нуля». Всё приходится выполнять силами человеческих экспертов.
Здесь, конечно, есть интерес ”Scale AI”. Контора как раз продаёт ИИ-компаниям доступ к человеческим экспертам и разметчикам данных. И если какая-то лаборатория захочет прогнать свою модель через бенчмарк RLI, ей придётся раскошелиться на услугу проверки.
В RLI языковая модель должна выполнять проект буквально «голыми руками», из глины и палок. Ей не дают доступ ни к графическим редакторам, ни к видео-софту, ни к CAD-системам. Будем откровенны — доступ к профессиональному софту мало чем помог бы, ИИ не умеет в нем работать. Но, согласитесь, условия для человеческой и машинной работы получаются очень разными.

Машине милостиво дают в пользование несколько генеративных ИИ-инструментов. Вроде Veo-3, умеющего создавать 8-секундные ролики. И просят создать длинное видео. Естественно, у ИИ ничего не получается.
Беглый просмотр заданий показывает, что в RLI много задач из креативной сферы («измени дизайн кольца для бриллианта с другой формой»), в то время как GDPEval больше налегает на рутинную офисно-планктонную работу («напиши ответ на письмо недовольного клиента, который хочет вернуть товар»). Думаю, что это отражает реальную специфику заказов на фрилансерских платформах. Но стоит помнить, что фриланс составляет лишь небольшую часть экономики. В общем объеме, в человеко-часах, рутинных заданий явно больше.
Наконец, финальное замечание — бенчмарк тестирует одну модель на профессионализм сразу в 23 сферах. Хотя от людей никто не ждет, чтобы они справлялись одновременно и с разработкой видеоигр, и с архитектурным проектированием зданий, и с сочинением музыки. Среди человеческих работников решает специализация. Но от ИИ почему-то требуется уметь всё и вся.
Подытоживая, истина может лежать где-то посередине. Половину офисного планктона ИИ, скорее всего, заменить еще не способен. Но уже способен заменить гораздо больше 2,5%, которые показывает бенчмарк RLI.
Ключевая проблема опять в том, что эти бенчмарки пытаются «наливать новое вино в старые мехи». Мерять всё человеческой меркой. То есть пытаются взять отдельный, удобно (для человека) обособленный, четко разграниченный «кусок» работы и сказать машине: решай!

И если такой кусок машина за один раз проглотить не в состоянии, ей сразу ставится незачет. Все считают, что гора должна прийти к Магомету.
Но такой подход абсолютно противоречит всей имеющейся практике автоматизации, всему инженерному опыту. Когда был изобретен двигатель внутреннего сгорания, инженеры не пытались запихнуть его в механического коня и заставить это коня перебирать четырьмя ногами. Инженеры не пытались сделать самолёт, махающий крыльями, как птица. А тот, кто пытался — остался на свалке истории.
Вместо этого инженеры смотрели на возможности машины и строили системы, исходя из этих возможностей и практических нужд. Они не копировали слепо Природу. Они ориентировались на то, что могло работать. И как могло работать.

Увы, нынешние инженеры бизнес-процессов, так называемый менеджмент, демонстрирует не инженерную закалку (и смекалку), а лень, пассивность и консерватизм. Перестраивать процессы, опираясь на возможности ИИ, они то ли не умеют, то ли не хотят. Ведь гораздо проще бездумно сказать
Впрочем, это временное положение дел. Пускай менеджмент интеллектуально ленив, но он все еще способен учиться на своих ошибках. И перенимать лучшие практики. Не сразу, но бизнес будет переформатировать свою работу под быстро растущие возможности машин.
Благо у него есть хороший мотиватор: прибыль. Даже если RLI опровергает тезис о близкой замене офисных работников на ИИ, он по-прежнему подтверждает абсолютное доминирование машины с точки зрения издержек. Медианная стоимость попытки ИИ сделать рабочую задачу — 92 американских цента. Против $200 у человеческих фрилансеров.
Ключевая задача для бизнеса — автоматизировать всё, что поддаётся такой дешевой автоматизации. И грамотно расставить людей для «затыкания дыр», того, что автоматизации не поддаётся. В ближайшее время самой экономически эффективной будет гибридная модель.
К сожалению, имеющиеся сейчас бенчмарки совсем не заточены на оценку таких гибридных схем работы. Будет забавно, если первые свидетельства эффективности такой схемы мы увидим в макроэкономической статистике, в данных по сокращениям и безработице. А не в бенчмарках...
Познакомиться с десятью публичными задачами бенчмарка RLI можно на сайте проекта, вкладка "Explore": https://www.remotelabor.ai/
_______________________________________________________________
|
|
</> |
Домашний интернет от «Мегафона»: актуальные тарифы и выгоды
Вечернее
Караси
Кто готовился к голоду в 2023
Курьер с таксистом позавтракали бургерами заказчика
Какие налоги пенсионеры вправе не платить, а по каким налогам есть льготы?
Природа скупости в США
Орда I

