Помогите разобраться с мнением сторонников идеи об экзистенциальном риске AGI

топ 100 блогов plakhov09.05.2022 Кажется, тут одно из трех мест в интернете, где можно задать такой вопрос и надеяться на интересную дискуссию. Так вот, о чем я хотел спросить.

Моя кандидатская диссертация была посвящена алгоритмам управления роботами, занимаюсь я чем-то связанным с ML уже около десяти лет, а чем-то связанным с AI (что бы это ни значило) и того дольше. Я уверен, что, хотя AI, тем более AGI, действительно очень опасная штука, опасность его выхода из-под контроля гораздо ниже, чем, судя по всему, полагают многие очень умные люди из движения современных рационалистов. Сначала я хотел написать здесь и/или на substack длинный пост, объясняющий, почему я с ними не согласен, но после того, как осилил примерно половину, вдруг понял, что я не до конца понимаю их аргументы и, соответственно, не уверен, что не сражаюсь с соломенными чучелами.

Конкретно, я совершенно не понимаю, как аргумент "инструментальной конвергенции" совместим с концепцией регуляризации.

На аргументе "инструментальной конвергенции", насколько я понимаю, основаны все рассуждения об экзистенциальном, почти сверхъестественном риске AGI. Суть его состоит в том, что какой бы ни была конечная цель, оптимальной стратегией её достижения всегда является сначала заполучить в свое распоряжение все ресурсы Вселенной (с понятными последствиями для человечества). Например, предположим, у нас есть искусственный интеллект, единственная цель которого - сделать как можно больше скрепок. Он быстро поймет, что было бы намного лучше, если бы не было людей, потому что люди могут решить отключить его, а если они так поступят, скрепок в итоге окажется меньше. Кроме того, человеческие тела содержат много атомов, которые можно превратить в скрепки. Будущее, к которому будет стремиться искусственный интеллект, будет таким, в котором будет много скрепок, но не будет людей. Кстати, чтобы эффективно избавиться от людей, нужно, конечно, скрывать свои планы, например, притворяться глупее и слабее, чем ты есть, пока не наступит время нанести удар.

Но, как признает сам Ник Бостром, его автор, этот аргумент относится только к "неограниченным" конечным целям, награда за достижение которых может быть произвольно большой, и не обязательно верен в случае "ограниченных".

Регуляризация - это техника машинного обучения, при использовании которой небольшой размер и "простота" (в том или ином смысле) решения становятся частью цели. Регуляризация - одна из основных запчастей современного ML, без нее обучаемые нами системы, в том числе реально существующие, склонны к поведению "злого джинна", который формально выполняет то, что ему говорят, но интерпретирует указания сколь угодно экзотическими способами.

Продолжая мысленный эксперимент с "максимизатором скрепок", мы можем сказать, что реальная машина не будет нацелена на производство как можно большего количества скрепок. Скорее всего, целью будет что-то вроде "изготовить много скрепок за небольшое конечное время, затратив не более такого-то и такого-то количества ресурсов". Компоненты этой цели, то есть слагаемые функции вознаграждения, соответствующие количеству изготовленных скрепок, времени и затратам, будут функциями с насыщением, аналогичными логистическим кривым. Таким образом, экзотические "выигрышные конфигурации" оказываются фактически запрещены. Например, производство квадриллиона скрепок за шесть месяцев (экзотическое состояние) оказывается худшим результатом для машины, чем производство миллиарда за шесть месяцев ("регулярное" состояние). Хотя можно утверждать, что "злой джинн" все еще способен понять слова о затрачиваемых ресурсах (или даже о ходе времени) каким-либо экзотическим способом, формализация этих условий имеет примерно ту же сложность, что и формализация слов "изготовить скрепку" и будет содержать свои собственные регуляризации, исключающие экзотику.

Такой способ постановки целей очень естественен для ML-инженера. Я думаю, что любая оптимизация в реальном мире будет многокритериальной и будет выглядеть как-то примерно так.

Подобная версия максимизатора скрепок все еще может быть очень опасной. С плохо поставленной целью он будет красть, уходить от налогов и нарушать закон другими способами, разберёт сам себя для использования в качестве ресурсов, будет полностью игнорировать требования безопасности, что приведет к травмам или даже гибели людей в процессе производства и т.д. и т.п. Но, поскольку мы исключили из функции вознаграждения все "бесконечности", рассуждение, основанное на том, что "бесконечность умножить на что угодно будет бесконечность" становится неприменимым, и все эти опасности не приводят к концу света. Никаких гипнодронов и наноботов-убийц.

Так вот, разве почти любая реалистичная регуляризация не делает аргумент инструментальной конвергенции неприменимым? Каковы аргументы людей, которые знают, что такое регуляризация, но все равно считают, что задача "не убить себя об недружественный AGI" практически неразрешима? (Такие точно существуют: поиск "regularization" на сайте lesswrong.com даёт много результатов).

Я понимаю, что на эту тему написано много длинных текстов, если не книг, и что интернет полон дискуссий обо всем этом, напичканных жаргоном. Не мог бы кто-нибудь изложить их кратко или указать мне на готовый хороший текст об этом, который не является текстом о неограниченном максимизаторе скрепок с голыми бесконечностями?

Оставить комментарий

Архив записей в блогах:
...
Привожу несколько выдержек из переписки моих родителей, касающиеся последних месяцев войны. Она с двумя детьми эвакуирована в сибирскую деревню, он от Москвы дошел до Берлина в разведке дивизии, потом в разведке 47 армии.   Из дневника ...
Мой любимый персонаж из мультиков — это, вне всякого сомнения, Эрик Картмен. Он такой, каким я вижу достойного человека. Он хитрый, алчный, завистливый, коварный, подлый. В нём есть все те качества, которые я ценю. Но в то же время они не отталкивают, ...
Вот просто гигантская каракатица!!! Огромнейшая. Никогда таких не видел. Я думаю килограма 3-4 будет Таких очень вкусно на гриле делать, о чем я уже рассказывал тут А кроме гриля, таких каракатиц можно быстро тушить в интересных соусах, но там есть опасность того что они сильно ...
Клубничка задержалась в этом году, созрела позже обычного. Сказались прохладная весна и начало лета. Но, ничего всё равно неплохой урожай получился . С небольшого участка собрали уже ведра три, в общей сложности. Смородина начала зреть: Ну и кабачки зацвели. ...