Новейшие достижения в области искусственного интеллекта и машинного обучения привели к появлению систем, которые на равных соперничают с человеком или даже превосходят людей в умении играть в игры, классифицировать изображения и обрабатывать тексты. Но если захочется узнать, почему водитель машины, идущей слева, вас «подрезал», почему люди голосуют вопреки собственным интересам и какой подарок на день рождения действительно обрадует брачного партнера, будет лучше спросить человека, а не машину. Решение таких задач в системе ИИ требует построения моделей человеческого разума, это важно не только для стимулирования интеграции машин в человеческое общество, но и для того, чтобы человеческое общество продолжало существовать.
Давайте вообразим автоматизированного интеллектуального помощника, способного выполнять такие базовые функции, как распределение еды и заказ продуктов. Для успешного решения этих задач он должен уметь делать выводы о ваших желаниях, отталкиваясь от вашего поведения. Со стороны кажется, что тут нет ничего сложного, но делать выводы о человеческих предпочтениях не так-то просто. Например, ваш помощник замечает, что больше всего вам нравятся десерты, – и примется планировать приемы пищи, подавая исключительно десерты. Или, может быть, он услышит ваши жалобы на отсутствие достаточного количества свободного времени и заметит, что уход за собакой отнимает у вас значительное количество этого свободного времени; после отказа от «десертного меню» он сообразит, что вы предпочитаете блюда, содержащие белок, а потому может заняться изучением рецептов, где фигурирует собачье мясо. Отсюда уже довольно близко до ситуаций, которые выглядят проблемными для человечества в целом (не забывайте, что мы все – обильные источники белка).
Умение делать выводы о человеческих желаниях является необходимым условием для успешного решения проблемы выравнивания ценностей – когда ценности автоматизированной интеллектуальной системы сопоставляются с человеческими. Выравнивание необходимо, если мы хотим, чтобы автоматизированные интеллектуальные системы действовали в наших интересах. Если они не в состоянии делать выводы о том, что для нас значимо, у них не будет ни малейшего стимула действовать на пользу нам – зато они вполне могут действовать вразрез с нашими ценностями.
Выравниванию ценностей в последнее время начинают уделять все больше внимания в исследованиях искусственного интеллекта. Одним из способов решения этой задачи считается обучение с обратным подкреплением. Вообще обучение с подкреплением – типовой метод обучения интеллектуальных машин. Связывая конкретные результаты с наградами, систему машинного обучения можно научить реализации стратегий, приносящих подобные результаты. Винер намекал на эту возможность еще в 1950-х годах, а в последующие десятилетия его идеи развивали и осуществляли на практике. Современные системы машинного обучения способны находить чрезвычайно эффективные методики прохождения компьютерных игр – от простых аркад игр до сложных стратегий в реальном времени – посредством алгоритмов обучения с подкреплением. Техника обратного подкрепления переворачивает привычный подход: наблюдая за действиями интеллектуального агента, который уже усвоил эффективные методики, мы можем предполагать, какие награды привели к разработке этих методик.
В своей простейшей форме обучение с обратным подкреплением является типично человеческим видом деятельности. Оно настолько распространено, что мы поступаем так неосознанно. Когда вы видите, что ваш сотрудник идет к торговому автомату с чипсами, шоколадками и прочим и покупает пакет несоленых орехов, вы делаете следующие выводы: ваш сотрудник (а) голоден и (б) предпочитает здоровую пищу. Когда какой-то знакомый явно вас замечает, но пытается уклониться от встречи, вы сознаете, что по какой-то причине он не хочет с вами разговаривать. Когда взрослые тратят много времени и денег на обучение игре на виолончели, вы заключаете, что им по-настоящему нравится классическая музыка, тогда как выяснение мотивов подростка, который учится играть на электрогитаре, может оказаться более сложной задачей.
Изучение обучения с обратным подкреплением представляет собой статистическую задачу: мы располагаем некими данными – о поведении интеллектуального агента – и желаем оценить обоснованность различных гипотез о вознаграждениях, определяющих это поведение. Столкнувшись с такой ситуацией, статистик склоняется к применению генеративной модели данных: какие данные мы ожидаем получить, если мотивировать интеллектуального агента тем или иным набором вознаграждений? На основании генеративной модели статистик далее предпримет обратную реконструкцию: какие награды с наибольшей вероятностью побудят агента вести себя именно таким образом?