Кант для АИ

Лента принесла ссылку на прекрасную лекцию о проблеме безопасности искусственного интеллекта. Мне очень понравилось - не будучи специалистом и даже любителем АИ, я смог оценить как проблемы, занимающие специалистов, так и возможные решения, которые специалисты предлагают. После чего, в полном соответствии с теорией Даннинга-Крюгера, поддался дилетантскому вдохновению.
В тексте лекции упомянут классический пример того, как АИ теоретически может уничтожить всех нас: нейронная сеть, целью которой является производство как можно большего количества канцелярских скрепок, может прийти к выводу, что человечество является досадной помехой или угрозой достижения заданной цели. В итоге человечество будет уничтожено (в лекции идея несколько иная: АИ генерирует молекулярную супертехнологию, которая позволяет обратить в скрепки всю Солнечную систему). Что делать с этой угрозой?
В лекции перечислены восемь основных подходов к проблеме, я сосредоточусь на последних двух. Седьмой предполагает строгую математическую формулировку человеческих ценностей, "вшитую" в целевые функции АИ. Восьмой - решение проблемы такой формулировки через машинное обучение (коль скоро строго формализовать различные человеческие ценности не получается).
При этом автор лекции, обсуждая седьмой вариант, даёт такой эмоциональный текст:
I have these weekly calls with Ilya Sutskever, cofounder and chief scientist at OpenAI. Extremely interesting guy. But when I tell him about the concrete projects that I’m working on, or want to work on, he usually says, “that’s great Scott, you should keep working on that, but what I really want to know is, what is the mathematical definition of goodness? What’s the complexity-theoretic formalization of an AI loving humanity?” And I’m like, I’ll keep thinking about that! But of course it’s hard to make progress on those enormities.
Вопрос выглядит наивно, а сама проблема кажется неразрешимой, однако - возможно, это не так. Поскольку у нас есть одна из главных максим Иммануила Канта: человек всегда должен быть целью, и никогда - средством. Это - одно из самых сильных этических высказываний в истории человечества, каковое, полагаю, всем нам стоит вспоминать как можно чаще (особенно в разговорах о целях войны, или пользе для страны, или ещё чем-нибудь столь же актуальном). И оно, каджется, может помочь людям, забоятщимся о безопасности АИ. Каковые, очевидно, вспоминают Канта нечасто - по ссылке, помимо собственно лекции, ещё 153 отобранных автором комментария. И - нет, Канта поиск не находит.
Между тем, в примере со скрепкой формула Канта даёт нам хорошее формальное решение. Задав нейронной сети целевую функцию типа "как можно больше скрепок у как можно большего числа людей", мы как минимум застрахуемся от уничтожения человечества (хотя при решении этой задачи могут возникнуть и другие неприятности). И - что важно - при этом неплохо увяжем цель нейронной сети с целью предпринимателя, который её использует (особенно если расширим функцию до "продать как можно больше скрепок как можно большему числу людей").
Знаток, пожалуй, скажет, что предложенное решение соответствует скорее формуле Бентама ("максимальное благо для максимального числа людей"). Это отчасти справедливо для приведённого примера. Тем не менее, ключевая идея Канта может быть транслирована в любую целевую функцию: конечной целью должно быть не решение абстрактной проблемы, а решение проблемы человека. Разрешить проблему конфликта между индивидуальным и коллективным благом на уровне целевой функции, конечно, будет гораздо сложнее. Но это всё же будет меньшая проблема по сравнению с проблемой АИ, представляющего угроза для всех без исключения людей.
|
</> |