Чтобы понять причину их беспокойства, стоит тщательнее изучить существующие технологии ИИ и разобраться, почему их сложно настраивать и контролировать. Один из основных подходов к созданию ОИИ подразумевает комбинацию глубокого обучения и обучения с подкреплением, которое появилось раньше. Этот метод предполагает наличие агентов, которые получают вознаграждение (или штраф) за выполнение разных действий в различных обстоятельствах. Например, агент, играющий в
Комбинация действий и состояний, которые приносят агенту вознаграждение, называется
К сожалению, ни один из этих методов нельзя без труда масштабировать таким образом, чтобы закодировать человеческие ценности в функцию вознаграждения агента. Наши ценности слишком сложны и неочевидны, чтобы описать их вручную[412]. И мы пока даже близко не подошли к тому, чтобы вывести систему ценностей человека во всей ее сложности из наблюдений за его поведением. Даже если бы такое было нам под силу, людей в человеческой общности слишком много и их ценности различаются, меняются со временем, а также не всегда понятны даже им самим. Каждое из этих осложнений ставит глубокие и нерешенные вопросы о том, как обобщать наблюдаемое в единую картину человеческих ценностей[413].
Итак, в ближайшем будущем любая попытка откалибровать ИИ-агент в соответствии с человеческими ценностями позволит нам создать лишь несовершенную копию нашего разума. В функции вознаграждения такого агента будет недоставать важных аспектов того, что нас заботит. При определенных обстоятельствах не совсем верная калибровка агента будет практически безвредной. Но чем умнее ИИ-системы, тем больше у них возможностей менять мир и тем сильнее рассинхронизация. Философия и литература часто предлагают представить себе общества, которые выстроены с учетом важных для нас принципов, но при этом пренебрегают крайне значимыми ценностями или неправильно понимают их. Глядя на результат, мы видим, что подобные неконтролируемые утопии могут привести к катастрофе: пустоте и выхолощенности, как в романе “О дивный новый мир”, или несамостоятельности и бессилию общества из “Со сложенными руками”[414]. Если мы так и не научимся контролировать своих агентов, они будут создавать и поддерживать именно такие миры[415].
И даже это, по сути, хороший расклад. Он предполагает, что создатели системы стараются откалибровать ее с учетом человеческих ценностей. Но стоит ожидать, что найдутся разработчики, которые предпочтут создавать системы, чтобы достигать других целей, например чтобы побеждать в войнах и максимизировать прибыли, при этом мало заботясь об этических ограничениях. И такие системы, возможно, окажутся гораздо более опасными.
Естественным ответом на эти опасения может служить отключение ИИ-систем в момент, когда мы замечаем, что они ведут нас не туда. Но в конце концов даже этот проверенный временем прием может нас подвести, ведь у нас есть все основания полагать, что достаточно умная система станет сопротивляться нашим попыткам ее отключить. И руководствоваться она будет не эмоциональными реакциями вроде страха, негодования и инстинкта самосохранения, а исключительно своей непререкаемой установкой максимизировать вознаграждение: отключение – это своего рода выход из строя, который осложняет получение большого вознаграждения, а потому система настроена так, чтобы его не допускать[416]. Таким образом, для высокоинтеллектуальных систем, главная цель которых – максимизация вознаграждения, инструментальной целью станет выживание.