Автоматизация: быть или не быть?

топ 100 блогов giovanni131306.11.2025
Автоматизация: быть или не быть? 5.png

Дебаты о замещении человеческих рабочих мест искусственным интеллектом постепенно превращаются из теоретических рассуждений в попытки количественно оценить потенциал машин. Речь, прежде всего, о бенчмарках, которые нацелены на тестирование ИИ в задачах из реальной экономики.

В конце сентября один такой бенчмарк, GDPVal, выпустила компания ”OpenAI”. И его результаты были многообещающими: ведущая ИИ-модель смогла сделать почти половину трудовых задач в бенчмарке не хуже человека.

И вот свою версию такого бенчмарка, под названием Remote Labor Index (RLI), решила выкатить команда из некоммерческого Center for AI Safety (CAIS) и “Scale AI”. Так сказать, «наш ответ Чемберлену». И, забегая вперед, этот ответ наверняка остудит многие горячие головы ИИ-оптимистов…

Автоматизация: быть или не быть? 6.png

Но начнем по порядку. Какие именно задачи содержатся в RLI, и чем он отличается от GDPEval? Если в GDPEval задачи придуманы экспертами, то RLI использует реальные заказы, выставленные на фрилансерской платформе ”Upwork” и реализованные исполнителями. Для создания датасета команда обратилась к фрилансерам и выкупила у них сохранившиеся реализованные проекты вместе с заданиями, необходимыми файлами и информацией о стоимости этой работы. После отсева в итоговом бенчмарке осталось 240 таких проектов.

Команда отмечает, что получившаяся выборка близка к реальному распределению задач, заказываемых на ”Upwork”. Медианная стоимость проекта — $200, максимальная — $22,5 тыс. Медианное время выполнения проекта — 11,5 часов, максимальное — 450 часов. Для сравнения, в GDPEval медианное время выполнения задачи существенно меньше: 4 часа.

Еще одно важное отличие RLI от GDPEval – разнообразие задач. В предыдущем бенчмарке почти 70% заданий можно было отнести к сфере программирования, анализа и написания документов. В RLI эти категории в совокупности занимают менее 20%.
Автоматизация: быть или не быть? 5.png
Итак, каковы результаты ИИ-моделей в новом бенчмарке? Удручающие! Самый сильный из агентов, Manus, смог справиться лишь с 2,5% заданий. Грок-4 и Клод Соннет-4.5 — с 2,1% каждый. Остальные кандидаты, в том числе GPT-5, выступили еще хуже.
Автоматизация: быть или не быть? 7.png
Почему же мы видим такую гигантскую разницу в результатах двух бенчмарках? Почему RLI оказался гораздо более сложным, практически неприступным для ИИ?

Среди наиболее частых причин, по которым экзаменаторы отвергают работу машины, мы видим «плохое качество» (46%) и «неполнота», т. е. нехватка необходимых элементов, прописанных в проектном задании (36%). В 18% случаев машина банально создаёт пустые файлы или файлы, которые невозможно открыть.

Некоторые объяснения такой слабости уже были упомянуты выше. С количественной точки зрения, задачи RLI требуют примерно в 3 раза больше времени на работу. Но, на мой взгляд, основное различие заключается в качественных характеристиках заданий. Фокус GDPEval на анализе и написании документов, скорее всего, не случаен. Он отражает неявное предпочтение разработчиков сосредоточиться на области, которой нынешние языковые модели владеют наиболее хорошо.

RLI, в свою очередь, двигает ворота в противоположную сторону. Его создатели намеренно исключили из бенчмарка задачи на написание контента, многие юридические задачи и задачи на разработку ПО. Почему? Первые — потому что «ИИ их уже решил», вторые — из-за рисков для персональных данных, третьи — потому-что поленились поднять необходимые среды для тестирования результатов. Отговорки так себе; все эти сферы являются такими же полноценными частями экономики и фриланс-рынка, как и остальные.

Следующий момент — разнообразие задач требует от ИИ уметь работать с десятками различных графических, инженерных, видео- и аудио-форматов. Требует не просто мультимодальности — но нативного восприятия и mp3-файлов, и gif-анимаций, и 3DS Max-моделей, и CAD-проектов. В общем, всего и сразу.

Автоматизация: быть или не быть? 8.png

А всё и сразу нынешние языковые модели пока не умеют. Это банально видно по тому, как организована оценка модели в бенчмарке RLI. Создатели даже не помышляют об автоматизации этого процесса: машина не способна адекватно даже оценить чужую работу — не то что сделать ее «с нуля». Всё приходится выполнять силами человеческих экспертов.

Здесь, конечно, есть интерес ”Scale AI”. Контора как раз продаёт ИИ-компаниям доступ к человеческим экспертам и разметчикам данных. И если какая-то лаборатория захочет прогнать свою модель через бенчмарк RLI, ей придётся раскошелиться на услугу проверки.

В RLI языковая модель должна выполнять проект буквально «голыми руками», из глины и палок. Ей не дают доступ ни к графическим редакторам, ни к видео-софту, ни к CAD-системам. Будем откровенны — доступ к профессиональному софту мало чем помог бы, ИИ не умеет в нем работать. Но, согласитесь, условия для человеческой и машинной работы получаются очень разными.

Автоматизация: быть или не быть? paper-coding.jpg

Машине милостиво дают в пользование несколько генеративных ИИ-инструментов. Вроде Veo-3, умеющего создавать 8-секундные ролики. И просят создать длинное видео. Естественно, у ИИ ничего не получается.

Беглый просмотр заданий показывает, что в RLI много задач из креативной сферы («измени дизайн кольца для бриллианта с другой формой»), в то время как GDPEval больше налегает на рутинную офисно-планктонную работу («напиши ответ на письмо недовольного клиента, который хочет вернуть товар»). Думаю, что это отражает реальную специфику заказов на фрилансерских платформах. Но стоит помнить, что фриланс составляет лишь небольшую часть экономики. В общем объеме, в человеко-часах, рутинных заданий явно больше.

Наконец, финальное замечание — бенчмарк тестирует одну модель на профессионализм сразу в 23 сферах. Хотя от людей никто не ждет, чтобы они справлялись одновременно и с разработкой видеоигр, и с архитектурным проектированием зданий, и с сочинением музыки. Среди человеческих работников решает специализация. Но от ИИ почему-то требуется уметь всё и вся.

Подытоживая, истина может лежать где-то посередине. Половину офисного планктона ИИ, скорее всего, заменить еще не способен. Но уже способен заменить гораздо больше 2,5%, которые показывает бенчмарк RLI.

Ключевая проблема опять в том, что эти бенчмарки пытаются «наливать новое вино в старые мехи». Мерять всё человеческой меркой. То есть пытаются взять отдельный, удобно (для человека) обособленный, четко разграниченный «кусок» работы и сказать машине: решай!
Автоматизация: быть или не быть? 5qNbSkvZGzUiN9xoyKaCqU2oW7xF23QW8jOxJrA83zbRCkc73yB0CHpZDv7E4G37fgK7xBtp31UX1vCa3TkAv7Bxp3cAVk21mnxXvXshxwxXHcQanuA2IvK3iDV9EGj6.jpeg

И если такой кусок машина за один раз проглотить не в состоянии, ей сразу ставится незачет. Все считают, что гора должна прийти к Магомету.

Но такой подход абсолютно противоречит всей имеющейся практике автоматизации, всему инженерному опыту. Когда был изобретен двигатель внутреннего сгорания, инженеры не пытались запихнуть его в механического коня и заставить это коня перебирать четырьмя ногами. Инженеры не пытались сделать самолёт, махающий крыльями, как птица. А тот, кто пытался — остался на свалке истории.

Вместо этого инженеры смотрели на возможности машины и строили системы, исходя из этих возможностей и практических нужд. Они не копировали слепо Природу. Они ориентировались на то, что могло работать. И как могло работать.

Автоматизация: быть или не быть? Percy-Sinclair-Pilcher-Hawk-English-wings-1896.jpg

Увы, нынешние инженеры бизнес-процессов, так называемый менеджмент, демонстрирует не инженерную закалку (и смекалку), а лень, пассивность и консерватизм. Перестраивать процессы, опираясь на возможности ИИ, они то ли не умеют, то ли не хотят. Ведь гораздо проще бездумно сказать «Интегрировай!» «Решай!», написать крупными буквами в презентации для вышестоящего начальства слово «ИИ», и стыдливо замести невразумительные результаты своего ИИ-интегрирования под ковёр, когда станет ясно, что проект не оправдал ожиданий.

Впрочем, это временное положение дел. Пускай менеджмент интеллектуально ленив, но он все еще способен учиться на своих ошибках. И перенимать лучшие практики. Не сразу, но бизнес будет переформатировать свою работу под быстро растущие возможности машин.

Благо у него есть хороший мотиватор: прибыль. Даже если RLI опровергает тезис о близкой замене офисных работников на ИИ, он по-прежнему подтверждает абсолютное доминирование машины с точки зрения издержек. Медианная стоимость попытки ИИ сделать рабочую задачу — 92 американских цента. Против $200 у человеческих фрилансеров.

Ключевая задача для бизнеса — автоматизировать всё, что поддаётся такой дешевой автоматизации. И грамотно расставить людей для «затыкания дыр», того, что автоматизации не поддаётся. В ближайшее время самой экономически эффективной будет гибридная модель.

К сожалению, имеющиеся сейчас бенчмарки совсем не заточены на оценку таких гибридных схем работы. Будет забавно, если первые свидетельства эффективности такой схемы мы увидим в макроэкономической статистике, в данных по сокращениям и безработице. А не в бенчмарках...

Познакомиться с десятью публичными задачами бенчмарка RLI можно на сайте проекта, вкладка "Explore": https://www.remotelabor.ai/


_______________________________________________________________
Друзья, я начал вести канал в Телеграм: Экономика знаний. Подписывайтесь!




Оставить комментарий

Предыдущие записи блогера :
Архив записей в блогах:
Кто-то купил из наших вот это. Просмотрев детально состав и вид, что-то не стал пробовать. И почему именно Киевская, украинская кухня уже в Пятигорске? Фирма Кавинторг, обитающая на КМВ, мне не очень нравится. Про украинцев шучу=) Но ведь есть же норальная киевская колбаса? Без добав ...
Может ли человек слабый, лишенный внутренней опоры, оставаться порядочным? Раньше я не пасовала перед таким вопросом: не всем же добрым и умным быть сильными. Сейчас не тороплюсь с ответом – было время подумать, пока разворачивалось на сцене то, что я и в жизни видела – драма ...
09:03:50 DSC_0692 Taken on April 30, 2016 Nikon D60 ,18.0-55.0 mm f/3.5-5.6 ƒ/4.0 18.0 mm 1/60 200 Shiraz, Fars, Iran, Шираз   317 items ...
Я понял, что зря переживаю за судьбы россиян, украинцев, немцев и т.д. Надо переживать за себя. А они - сами разберутся. Это теперь их страны, не мои. Моя страна умерла 30 лет ...
 Сегодня, вернее, уже вчера был мой профессиональный праздник - День Строителя. У меня тащемта много профессиональных праздников: День Учителя (по образованию и месяц практики в школе), День Кадровика, День Рекрутера, День Машиностроителя (по ...