Читаем На краю пропасти. Экзистенциальный риск и будущее человечества полностью

На краю пропасти. Экзистенциальный риск и будущее человечества

Чтобы понять причину их беспокойства, стоит тщательнее изучить существующие технологии ИИ и разобраться, почему их сложно настраивать и контролировать. Один из основных подходов к созданию ОИИ подразумевает комбинацию глубокого обучения и обучения с подкреплением, которое появилось раньше. Этот метод предполагает наличие агентов, которые получают вознаграждение (или штраф) за выполнение разных действий в различных обстоятельствах. Например, агент, играющий в Atari, получает вознаграждение, когда набирает очки в игре, а агент, собирающий конструктор лего, может получать вознаграждение, когда детали соединяются друг с другом. Достаточно разумный и опытный агент искусно изменяет свою среду таким образом, чтобы создавать условия для получения высокого вознаграждения.

Комбинация действий и состояний, которые приносят агенту вознаграждение, называется функцией вознаграждения. Ее могут либо задавать разработчики (как в упомянутых выше случаях), либо выводить сам агент. В последнем случае агент, как правило, наблюдает за тем, как задачу выполняет специалист, и логически выводит систему вознаграждений, которая лучше всего объясняет, почему специалист действует именно так, а не иначе. Например, ИИ-агент может научиться управлять дроном, если понаблюдает за тем, как им управляет специалист, а затем выведет функцию вознаграждения, которая наказывает его, если он летает слишком близко к препятствиям, и вознаграждает, если он добирается до пункта назначения.

К сожалению, ни один из этих методов нельзя без труда масштабировать таким образом, чтобы закодировать человеческие ценности в функцию вознаграждения агента. Наши ценности слишком сложны и неочевидны, чтобы описать их вручную[412]. И мы пока даже близко не подошли к тому, чтобы вывести систему ценностей человека во всей ее сложности из наблюдений за его поведением. Даже если бы такое было нам под силу, людей в человеческой общности слишком много и их ценности различаются, меняются со временем, а также не всегда понятны даже им самим. Каждое из этих осложнений ставит глубокие и нерешенные вопросы о том, как обобщать наблюдаемое в единую картину человеческих ценностей[413].

Итак, в ближайшем будущем любая попытка откалибровать ИИ-агент в соответствии с человеческими ценностями позволит нам создать лишь несовершенную копию нашего разума. В функции вознаграждения такого агента будет недоставать важных аспектов того, что нас заботит. При определенных обстоятельствах не совсем верная калибровка агента будет практически безвредной. Но чем умнее ИИ-системы, тем больше у них возможностей менять мир и тем сильнее рассинхронизация. Философия и литература часто предлагают представить себе общества, которые выстроены с учетом важных для нас принципов, но при этом пренебрегают крайне значимыми ценностями или неправильно понимают их. Глядя на результат, мы видим, что подобные неконтролируемые утопии могут привести к катастрофе: пустоте и выхолощенности, как в романе “О дивный новый мир”, или несамостоятельности и бессилию общества из “Со сложенными руками”[414]. Если мы так и не научимся контролировать своих агентов, они будут создавать и поддерживать именно такие миры[415].

И даже это, по сути, хороший расклад. Он предполагает, что создатели системы стараются откалибровать ее с учетом человеческих ценностей. Но стоит ожидать, что найдутся разработчики, которые предпочтут создавать системы, чтобы достигать других целей, например чтобы побеждать в войнах и максимизировать прибыли, при этом мало заботясь об этических ограничениях. И такие системы, возможно, окажутся гораздо более опасными.

Естественным ответом на эти опасения может служить отключение ИИ-систем в момент, когда мы замечаем, что они ведут нас не туда. Но в конце концов даже этот проверенный временем прием может нас подвести, ведь у нас есть все основания полагать, что достаточно умная система станет сопротивляться нашим попыткам ее отключить. И руководствоваться она будет не эмоциональными реакциями вроде страха, негодования и инстинкта самосохранения, а исключительно своей непререкаемой установкой максимизировать вознаграждение: отключение – это своего рода выход из строя, который осложняет получение большого вознаграждения, а потому система настроена так, чтобы его не допускать[416]. Таким образом, для высокоинтеллектуальных систем, главная цель которых – максимизация вознаграждения, инструментальной целью станет выживание.

Читаем На краю пропасти. Экзистенциальный риск и будущее человечества полностью

На краю пропасти. Экзистенциальный риск и будущее человечества

Похожие книги

Все жанры