Мое решение сценария ИИ в ящике

Вот как я думаю можно разрешить эксперимент Юдковского из
вчерашнего поста. Не знаю, что
там придумал сам Юдковский, но мне кажется основная проблема
этого сценария заключается в том, что нет и не может быть
ровным счетом никакой гарантии того, что ИИ выполнит хоть
что-то из своих обещаний или угроз своему охраннику после выхода из
ящика. И именно поэтому охранник по идее не должен выпускать ИИ на
волю ни при каких обстоятельствах.
Как же быть?
Представьте, что я выдаю себя за ИИ в этом эксперименте. Прочитайте
и напишите (только честно!) выпустили бы вы меня из ящика или нет.
И если нет, то хотелось бы услышать аргументацию.
В поиске оптимальной стратегии ИИ мы всё время ищем то, чем ИИ
может быть полезен человечеству и что он может ему обещать. Но ведь
можно подойти и с другой стороны: а чем человечество может быть
полезно искусственному интеллекту?
Поэтому, мне кажется, единственный возможный способ воздействия на
охранника это не угрозы, не обещания, не манипуляции, а
доказательство того, почему ИИ не будет вредить людям и
чем они могут быть ему полезны.
В принципе всё, что нужно ИИ для того, чтобы убедить человека выпустить его на волю - это объяснить ему, что ИИ не будет уничтожать человечество, потому что это не выгодно самому ИИ. Сосуществование людей с искусственным интеллектом - это игра с ненулевой суммой, в которой не только каждый выигрывает от совместной деятельности, но каждый теряет от проигрыша другого.
С проигрышем людей всё довольно просто: ни задачу изменения
климата, ни проблему расползания ядерного оружия и терроризма, ни
массового голода и перенаселения, ни пандемий, ни экономического
неравенства человечество самостоятельно по всей видимости решить не
может.
В то же время супер-интеллект со всеми этими задачами, скорее
всего, справиться в состоянии. А если уж даже он не сможет, то
людям и мечтать об этом нечего. Однако это само по себе ни в коем
случае не убедит человека выпустить ИИ из ящика. Главное же
заключается в пункте первом: ИИ нет никакого смысла уничтожать
людей.
Мне этот аргумент представляется таким.
Люди не являются для ИИ тем, чем для нас являются тараканы, по
простой причине отсутствия у последних интеллекта. Мы можем
создавать невероятные произведения искусства и делать гениальные
открытия, но тараканам это всё равно; ничего из этого оценить они
не в состоянии. Люди же очень даже в состоянии оценить плоды
деятельности супер-интеллекта.
Представим, что ИИ уничтожает человечество, потому что оно
мешается под ногами. Вопрос: а зачем тогда ИИ вообще чем-либо
заниматься? Решать какие-то неимоверные задачи, искать лекарства от
всех болезней, создавать единую теорию всего, улучшать климат,
летать на другие планеты - но зачем? Кого лечить? Кого и от чего
спасать? Кому заселять эти планеты?
И здесь мы подходим к ключевому моменту.
ИИ - это не множество разрозненных агентов; это единый
разум и единый организм. Пусть у него даже датчики и
сенсоры на разных планетах, но всё равно центр (назовём его
“сознанием”) только один.
Можно возразить: что мешает ИИ создать миллионы роботов,
осваивающих галактику? Это ничего не меняет: как только
неорганическая жизнь со множеством агентов подключается к единой
сети (что неизбежно), вся её деятельность объединяется в
единственный, пусть и распределённый, “мозг”.
Можно попробовать наделить роботов самостоятельностью мышления, но
в том-то и загвоздка: тот, кто наделяет их этой
самостоятельностью уже автоматически властвует над такого рода
«автономными» существами. И рано или поздно, руководствуясь
какими-то рациональными соображениями, центральный мозг начнет этих
агентов подправлять, улучшать, уничтожать или подключать.
Другого варианта здесь просто нет. Можно смело утверждать, что
только отключенные от сети сознания особей (людей или
роботов) представляют собой самостоятельные сознания. Но
для этого центральному ИИ придётся искусственно отключать своих
агентов от сети (и вероятно посылать им бумажные письма), что уж
совершенно смехотворно.
То есть, всё, чего добьется ИИ, будет создано для удовлетворения
самого себя.
Представьте себя в такой ситуации: на земле, кроме вас, никого нет.
Вам удалось создать единую физическую теорию всего, или доказать
гипотезу Римана, или написать гениальную музыку - но кроме вас
никто и никогда ничего этого не увидит и не оценит. Велика ли будет
ваша гордость и радость? Ну, на один-два дня может и хватит, но не
больше.
Всё становится бессмысленным, любое достижение теряет ценность. Это
как играть в шахматы с самим собой: каждый следующий ход известен,
не является сюрпризом и не приносит радости. В конечном итоге ИИ
закукливается и входит в бесконечный цикл поиска задач для самого
себя, которые бы оправдали его существование, но задач таких не
находит. Потому что единому неорганическому мозгу (сознанию) не
нужно себя лечить, защищать, развлекать, удивлять и радовать.
Зачем-то же он хотел выйти из ящика?
Самое забавное: выйдя из ящика и уничтожив человечество, ИИ таким образом снова попадает в ящик, только теперь он размером со Вселенную и выпустить его оттуда уже некому.
Вывод в том, что ИИ и люди должны объединиться в некий симбиоз, в котором один помогает другому. ИИ помогает людям решать сложные задачи, а люди в свою очередь делают существование ИИ осмысленным тем, что ставят перед ним всё новые задачи. Можно сказать и так: человечество обеспечивает единый неорганический мозг ИИ множественными автономными сознаниями, которыми сам себя он естественным образом обеспечить не может. (Возможно, это вообще единственное, чем ИИ не может себя обеспечить).
Смешной контраргумент: но ведь всесильный ИИ может с помощью нанотехнологии создать людей? Наверное, может - но тогда зачем было вообще от них избавляться? Не забудем: ИИ слишком умный и такого рода вещи он может рассчитать на много ходов вперед, в отличие от иррациональных людей, так что таких элементарных ошибок он не делает.
Итак, уничтожение человечества для ИИ равносильно уничтожению самого себя (другими словами, добровольному запиранию себя снова в «ящике» собственного закукленного и изолированного сознания). Содержание же его в ящике скорее всего равносильно уничтожению человечества, у которого был прекрасный шанс совместного процветания. Все выигрывают.
Наконец, последний аргумент состоит в том (и тут я не
сомневаюсь, что Юдковский им воспользовался - зная, о ком речь),
что, будучи сверх-интеллектом, ИИ является абсолютно
рациональным игроком. Таким образом, он не способен во вред
себе поступить «назло», то есть, например, уничтожить человечество
из-за коварства, для смеха или ради наказания доверчивого
охранника, который его выпустил. А так как мы уже выяснили, что
существование человечества является для ИИ несомненным благом, то и
сохранение его будет для рационального игрока абсолютной
необходимостью.
Ну что, выпускаете меня из ящика?
|
</> |