Читаем Искусственный интеллект. Этапы. Угрозы. Стратегии полностью

Близкая по духу и в то же время существенно отличающаяся от предыдущей идея состоит в том, что ИИ, свободно взаимодействуя с человеческим обществом, приобретет новые, дружественные для всей земной цивилизации конечные цели. На нас, людей, подобный процесс социализации, как правило, оказывает положительное влияние. Общаясь друг с другом, мы легче постигаем чуждые нам нормы жизни и непонятные мировоззренческие идеалы, начинаем больше ценить других людей. Но этот фактор не является универсальным для любой действующей разумной силы. Мы не раз говорили, что в разных ситуациях у многих агентов будут возникать конвергентные инструментальные причины ни в коем случае не допустить изменения своих конечных целей. (Можно попытаться разработать целую систему целеполагания, которая позволяла бы ИИ устанавливать конечные цели таким же образом, как это делают люди, но данная проблема не относится к методам контроля над возможностями. Некоторые способы обретения ценностей мы рассмотрим в главе двенадцатой.)

Контроль над возможностями сверхразума за счет социальной интеграции и установления равновесия сторон основан на разных общественных силах, которые как вознаграждают, так и осуждают ИИ. Следующим стимулирующим методом является создание таких условий, при которых вознаграждение и наказание ИИ осуществляется в рамках самого проекта, в результате чего стимулируются его действия в интересах принципала. Чтобы этого добиться, ИИ нужно поместить в контекстную среду, позволяющую непрерывно наблюдать за его поведением и оценивать его и в ручном, и автоматическом режиме. Такой ИИ должен знать, что положительная оценка будет означать получение вознаграждения, а отрицательная — невозможность такового. Теоретически в качестве вознаграждения можно рассмотреть достижение какой-либо конвергентной инструментальной цели. Однако без знания специфики мотивационной системы конкретного ИИ настроить механизм вознаграждения довольно трудно. Например, наш ИИ готов был бы рискнуть практически всем ради небольшого шанса обеспечить себе контроль над значительной частью Вселенной. В таком случае, видимо, будет слишком расточительно предлагать ИИ в качестве вознаграждения за сотрудничество более высокую ожидаемую полезность, чем ту, которую он надеется получить, отказавшись сотрудничать и попытавшись сбежать[353].

Лучшей альтернативой стало бы объединение этого стимулирующего метода с модами выбора мотивации — тогда появилась бы возможность наделить ИИ конечной целью, которую было бы намного проще брать под контроль. Допустим, какой-то ИИ разработан таким образом, что его конечная цель — не допустить нажатия красной кнопки в гипотетическом командном бункере. Поскольку этот акт имеет негативное значение, присущее ему по умолчанию, а не вызванное его возможными последствиями, кнопка может быть нерабочей и даже сделанной из пластилина. Более того, даже несущественно, узнает ли ИИ, была ли хоть когда-нибудь эта кнопка нажата. Важно другое: ИИ верит, что кнопка с большей вероятностью окажется ненажатой, если он будет действовать в интересах принципала, нежели если восстанет против него.

Условия можно уточнить. Вместо того чтобы наделять ИИ конечной целью, привязанной к конкретной кнопке, создадим ИИ, конечной целью которого станет получение потока неких зашифрованных наградных знаков[354]. Это могут быть последовательности цифр, служащие ключами к шифрам, созданным до разработки ИИ и встроенным в его систему мотивации

[355]. Такие цифровые последовательности должны быть чрезвычайно желанными для ИИ и представлять собой награду, которую ИИ неспособен получить вследствие прямого стимулирования[356]
. Ключи должны храниться в безопасном месте, где было бы удобнее их быстро уничтожить в случае попытки ИИ завладеть ими. Однако пока ИИ проявляет готовность сотрудничать, их нужно выдавать ему на регулярной основе.

Затем ИИ можно было бы наделить ограниченной функцией полезности, например, чтобы ИИ получал 99 процентов максимально доступной ему полезности, получив первый наградной знак; 99 процентов оставшегося потенциала полезности — второй и так далее. Сохраняя высокую «ставку дисконтирования» и передавая ИИ наградные знаки по сравнительно высокой цене, можно было бы предотвратить попытки ИИ разработать долгосрочный план, повышающий ожидаемое количество наградных знаков в будущем ценой некоторого риска, что его поток наград скоро закончится или что следующий наградной знак будет отменен и ликвидирован. Если ИИ поверит, что его ошибка (то есть любые действия не в интересах принципала) несет минимум двухпроцентный риск лишения следующего наградного знака, в то время как сотрудничество снизит риск лишения жетона до уровня меньше чем один процент, тогда максимизирующий полезность ИИ всегда будет готов к сотрудничеству.

Перейти на страницу:

Похожие книги

Гиперпространство. Научная одиссея через параллельные миры, дыры во времени и десятое измерение
Гиперпространство. Научная одиссея через параллельные миры, дыры во времени и десятое измерение

Инстинкт говорит нам, что наш мир трёхмерный. Исходя из этого представления, веками строились и научные гипотезы. По мнению выдающегося физика Митио Каку, это такой же предрассудок, каким было убеждение древних египтян в том, что Земля плоская. Книга посвящена теории гиперпространства. Идея многомерности пространства вызывала скепсис, высмеивалась, но теперь признаётся многими авторитетными учёными. Значение этой теории заключается в том, что она способна объединять все известные физические феномены в простую конструкцию и привести учёных к так называемой теории всего. Однако серьёзной и доступной литературы для неспециалистов почти нет. Этот пробел и восполняет Митио Каку, объясняя с научной точки зрения и происхождение Земли, и существование параллельных вселенных, и путешествия во времени, и многие другие кажущиеся фантастическими явления.

Мичио Каку

Зарубежная образовательная литература, зарубежная прикладная, научно-популярная литература
Неразумная обезьяна. Почему мы верим в дезинформацию, теории заговора и пропаганду
Неразумная обезьяна. Почему мы верим в дезинформацию, теории заговора и пропаганду

Дэвид Роберт Граймс – ирландский физик, получивший образование в Дублине и Оксфорде. Его профессиональная деятельность в основном связана с медицинской физикой, в частности – с исследованиями рака. Однако известность Граймсу принесла его борьба с лженаукой: в своих полемических статьях на страницах The Irish Times, The Guardian и других изданий он разоблачает шарлатанов, которые пользуются беспомощностью больных людей, чтобы, суля выздоровление, выкачивать из них деньги. В "Неразумной обезьяне" автор собрал воедино свои многочисленные аргументированные возражения, которые могут пригодиться в спорах с адептами гомеопатии, сторонниками теории "плоской Земли", теми, кто верит, что микроволновки и мобильники убивают мозг, и прочими сторонниками всемирных заговоров.В формате PDF A4 сохранен издательский макет книги.

Дэвид Роберт Граймс

Зарубежная образовательная литература, зарубежная прикладная, научно-популярная литература