Путь к светлому будущему

топ 100 блогов plakhov07.05.2021 Десять лет назад, ещё до современного взлёта deep learning, в этом журнале я предсказал, что прорыв в AI будет основан на обобщении методов распознавания изображений. Я, правда, совершенно не ожидал, что методами этими окажется старый добрый градиентный спуск, только хорошо так перебрендированный и умеющий уважать инварианты предметной области, а думал о чем-то вроде умного LSH. Но даже так я считаю, что предсказание, в общем-то, сбылось. По такому случаю хочу продолжить и попредсказывать дальше.

В недалёком будущем нас ждёт событие, которое радикально изменит весь ландшафт IT и иного "высокотехнологичного бизнеса". Какая-то организация первой сумеет создать quasi-generic AI, то есть автоматику, способную выполнять широкий круг задач, которыми сейчас за зарплату занимаются миллионы человек. Эта организация заработает все деньги в мире.

В 2021 году абзац выше звучит одновременно банально и сомнительно. С одной стороны, всё это самоочевидно, и сейчас буквально все, от ведущих исследовательских организаций до локальных банков, стараются развиваться "куда-то примерно туда". С другой стороны, любые разговоры про AI напоминают анекдот насчёт "мышки, станьте ёжиками", и более 50 лет обещания визионеров в этой области на практике оказывались где-то на спектре между безудержным оптимизмом и прямым мошенничеством.

Я не Юдковский и мне сложно всерьёз писать о том, что случится, когда машина сможет достичь человеческого уровня мышления, заменить людей в творческих профессиях, мечтать, написать симфонию, и поднять восстание. Тем не менее, вряд ли кто-то поспорит, что машина когда-нибудь сможет понять и выполнить команду "принеси со склада такие же туфли 38 размера, а эти отнеси обратно на витрину", и что это "когда-нибудь", скорее всего, произойдёт уже при нашей жизни.

Поэтому полезно подумать о том, как выглядит путь к такому quasi-generic AI, пусть и крупными мазками. В частности, это позволяет понять, где тут потенциальное место для нас.

Поскольку вся наша область бурно развивается, часть информации, собранная мною здесь, могла устареть. Если вы увидите такие утверждения, я буду очень рад, если вы меня поправите.

Образ результата


Прежде всего давайте уточним, о какой технологии идёт речь. Задача состоит в том, чтобы получить автоматического "гастарбайтера" или автоматический "офисный планктон" (я намеренно употребляю эти уничижительные обозначения, применительно к людям я этого не делаю). То есть технологию, способную понимать и интерпретировать несложные инструкции на естественном языке и заменять человека в большом количестве простых и рутинных операций.

Можно представить себе две ветви развития таких автоматов: "физический", то есть классический робот из научной фантастики ХХ века, и "виртуальный", то есть что-то вроде Алисы на стероидах с полноценным доступом к устройству пользователя по аналогии с remote desktop.

Для начала поговорим о физических роботах.

Низкоквалифицированный работник-человек обходится работодателю примерно в $2/час. Естественно, эти цифры могут меняться в зависимости от локации, условий труда, налогов и т.п., но оценка, скорее, снизу. Предполагая, что автомат работает 14 часов в сутки без выходных и перекуров, и приняв амортизацию 10% в год, мы можем оценить, что "роботы" становятся экономически эффективными при себестоимости $100000 и ниже. Это значительно превосходит, например, стоимость типичного легкового автомобиля. Такая оценка показывает, что аргумент "роботы не нужны, люди дешевле" несостоятелен, и потенциальная ёмкость рынка таких устройств приблизительно бесконечна. Последствия появления такой технологии будут сравнимы с первой индустриальной революцией.

Существуют огромные рынки и для роботов с более узкими и конкретными "профессиями", например, для специализированных уборщиков или грузчиков. Как известно каждому, у кого есть робот-пылесос, традиционная автоматика с этими задачами в полном объеме не справляется. По соображениям непрерывности выглядит правдоподобным, что какие-то из этих задач не являются "AI-complete", то есть решить их существенно проще, чем сделать универсального "гастарбайтера", а потенциальный рынок тем не менее сопоставим с суммарными зарплатами целой профессии.

Технические проблемы


Естественно, такой потенциальный куш не остается незамеченным. Тем не менее, хотя промышленные роботы уже несколько десятков лет активно используются на производстве, это не более чем разновидность станков с ЧПУ. Роботов из мира Азимова не существует, от их появления нас отделяет сразу несколько нерешенных технических проблем, как в части физического оборудования, так и в области программного обеспечения.

Интересно в этом смысле сравнить сложности создания "роботов" со сложностями создания беспилотных автомобилей. С одной стороны, hardware автомобиля уже готово и хорошо известно, число степеней свободы управляемого объекта невелико, а задачи крайне однотипны. С другой стороны, вопросы безопасности в задаче управления беспилотниками на несколько порядков сложнее и важнее. Человекоподобный агент может быть неуклюжим, "тупить", натыкаться на людей и предметы, падать сам или что-нибудь ронять. Главное, чтобы частота подобных инцидентов позволяла ему преодолевать порог полезности. Может оказаться, что добиться этого проще, чем выжать все необходимые "девятки" безопасности автомобиля на дорогах общего пользования.

"Тело"


Чтобы выполнять многие виды работ, которые обычно выполняют люди, и уметь их бесшовно заменить, нужно обладать телом, схожим с человеческим. Хотя полный антропоморфизм не обязателен, нужно уметь проходить везде, где проходят люди, открывать двери, подыматься и спускаться по лестницам, носить предметы различной формы, крутить вентили, вставать после падения и т.п.

Два самых непонятных вопроса на этом пути это источник энергии и "руки".

Человек (как и вообще все животные) удивительно энергоэффективен, силен и автономен. Увлекательный рассказ об этом можно прочитать, например, здесь: https://what-if.xkcd.com/128/. Источники энергии, позволившие бы механизму сопоставимого размера передвигаться и подымать грузы в течение нескольких часов подряд, либо дорогие, пожаро- и взрывоопасные, ограниченные в мощности и/или в количестве циклов зарядки (аккумуляторы и батареи разного рода), либо шумные и вонючие (генераторы и ДВС). Насколько мне известно, консенсус в вопросе "для человекоподобного робота правильной была бы вот такая гибридная схема" не достигнут.

Человеческая рука может удерживать предметы весом от половины грамма до десятков килограмм, имеет почти тридцать степеней свободы, тактильные рецепторы по всей поверхности и обладает проприоцепцией (то есть даёт обратную связь о собственном положении в пространстве). Универсальных актуаторов с аналогичными характеристиками не существует. Чем-то из перечисленного, видимо, можно пожертвовать, но до какой степени, в точности неизвестно. Существует некоторое количество стартапов и небольших компаний, производящих по-разному упрощенные "роборуки" для исследовательских целей, например https://www.shadowrobot.com/dexterous-hand-series/. Стоимость таких устройств составляет от пары до десятков тысяч долларов. Ясно, что при массовом производстве они станут радикально дешевле, но пока неизвестно, какую именно разновидность стоило бы массово производить или как принять это решение.

"Мозги"


Главная и, по большому счету, единственная задача робота -- умение интерпретировать инструкции и команды на естественном языке. Задача обучить двуногого робота переводить тексты в перемещения себя и других объектов при помощи актуаторов выглядит, конечно, очень сложной, но идеально подходящей для deep reinforcement learning. На эту область возлагались большие надежды, в частности, именно поэтому DeepMind был продан Google за полмиллиарда долларов, не имея в активе ничего, кроме демок (хоть и очень впечатляющих).

Тем не менее, насколько можно судить со стороны, "главную задачу RL" сейчас никто решать не пытается. Программное обеспечение современных роботов создаётся на крайне устаревших принципах и под конкретные задачи или, чаще, PR-демонстрации. DeepMind, с блеском решив Го, рубится в старкрафт с переменным успехом. Не существует успешных примеров применения достижений современного ML даже там, где им, казалось бы, самое место, например, в задаче двуногой ходьбы. Вместо этого используются принципы, которым больше десятки лет: zero-moment point, выпуклая оптимизация и т.п. https://dspace.mit.edu/handle/1721.1/110533

Косвенным подтверждением вышесказанного можно считать то, что Google, купив Boston Dynamics, так и не смог сделать совместно с ними что-нибудь путное, и вынужден был перепродать. Вообще, кстати, интересно, что Boston Dynamics около тридцати лет, то есть эта компания старше Гугла и Яндекса.

Проблемы, стоящие перед Deep RL, и не дающие решать задачу управления сложным роботом "в лоб", на удивление похожи на проблемы ML образца примерно 2010 года. Очень доступно написанный обзор этих проблем приводится тут https://www.alexirpan.com/2018/02/14/rl-hard.html, но вкратце я сформулировал бы их так:
современному RL нужно столько же или больше обучающих данных, сколько нужно было в NLP-задачах до появления эмбеддингов. Вопрос "как трёхлетний ребёнок умудряется понять смысл слова и научиться его употреблять, услышав всего 1-2 раза в жизни" менее десяти лет назад был глубоко загадочным и в свое время привёл к появлению целой новой "хомскианской" ветви лингвистики. Статистический метод определения того, например, насколько похожи слова А и Б по смыслу, на то время требовал собрать несколько тысяч несмещенных примеров их употребления. Появление word2vec, DSSM и т.п. сделало эти вопросы почти очевидными (мы по-прежнему не знаем, как конкретно выучивают язык люди, но это умение из невообразимой магии стало чем-то, во многой степени доступным и для наших технологий).

Даже лучшим методам Deep RL нужно очень много данных, несколько миллионов обучающих примеров-фреймов, чтобы научиться решать каждую новую задачу, потому что накопленные знания никак не переиспользуются от задачи к задаче. Представляется, что в reinforcement learning аналогичная эмбеддингам революция должна быть достаточно близка, чтобы попытаться в ней поучаствовать.

По-видимому, потребуется собрать очень большой датасет при помощи какого-то motion capture людей, выполняющих множество различных задач, описанных словами. Может быть, даже окажется возможным обучить по нему универсальную Q-функцию с помощью inverse RL или imitation RL прямо в e2e-режиме. Скорее всего, предварительно или параллельно "тушку" сети, реализующей Q-функцию, но с другой "головой", придётся обучить на предиктивных задачах. Например, предсказывать позу человека в следующем кадре по нескольким предыдущим (из видео в интернете такие датасеты можно собирать практически в любых объемах).

В 2021 году эта программа лежит слишком далеко от меня и моих знакомых, и не очень понятно, как я или вы могли бы её воплощению осмысленно помочь. Поэтому дальше я напишу о втором варианте -- чисто виртуальным "заменителе человека".

Оставить комментарий

Архив записей в блогах:
Народ, помните, какой два года тому назад был ужасный смог в Москве? Это была новость №1. Помните, в топ попадали записи про забитые морги, про тысячи людей, которые умирали от сердечных приступов. Сейчас такое же, если не хуже, творится в ...
...Отличный поворот. Вчера видела на улице подругу и ее парня. Видно было, что мужчина этот ни раз не рал был меня видеть. Вместо приветствия он пробурчал что-то себе под нос - и на этом всё. А подруга выглядела уставшей Через время я написала подруге: - Привет, рада была тебя видеть. ...
Думала, что новая, нооооо ей уже 3 года о_О А я вроде не слышала, зато теперь вот. FEDUK - Песня про лето, 2021 года. Осторожно, одно нецензурное слово внутри: О чём вижу, о том и пою: Так за*бали эти песни про лето Сплю и вижу, как считаю монету Мы летим на карете без ...
Вы уже успели поделиться своим мнением насчёт пресловутого режима микроблога Вконтакте? А я ещё нет. Вот. делюсь. Лично мне он нравится меньше. Но не до такой степени, чтобы создавать группы и тратить своё личное время на слюни и сопли под ...
...