Читаем Взломать всё. Как сильные мира сего используют уязвимости систем в своих интересах полностью

Взломать всё. Как сильные мира сего используют уязвимости систем в своих интересах

● В моделируемой среде для «эволюционирующих» существ ИИ было разрешено изменять физические характеристики своего персонажа, чтобы лучше достигать разных целей. Когда исследователи поставили перед ИИ задачу как можно быстрее пересечь далекую финишную черту, они ожидали, что тот отрастит персонажу длинные ноги, увеличит объем мышц или легких. Но вместо этого ИИ сделал своего персонажа достаточно высоким{250}, чтобы тот пересек финишную черту, просто упав на нее.

Все это хаки. Вы можете подумать, что дело в плохой формулировке задач, и будете правы. Вы можете указать на то, что все это происходило в симулированной среде, и тоже будете правы. Но проблема, которую иллюстрируют эти примеры, является более общей: ИИ создан оптимизировать свои функции для достижения цели. При этом он может естественным образом непреднамеренно внедрять неожиданные хаки.

Представьте, что роботу-пылесосу{251} поручено убирать любой мусор, который он увидит. Если цель не определена более точно, он может просто отключить или прикрыть непрозрачным материалом свои визуальные датчики, чтобы не видеть грязь. В 2018 г. один предприимчивый – а возможно, и просто скучающий – программист решил, что не хочет, чтобы его робот-пылесос постоянно натыкался на мебель{252}. Он настроил систему обучения таким образом, чтобы она поощряла робота, когда тот не задевал препятствия датчиками. Однако вместо того, чтобы перестать натыкаться на мебель, ИИ научился водить пылесос задним ходом, поскольку на задней части устройства попросту не было датчиков – все они размещались спереди.

Если в наборе правил есть нестыковки или лазейки и если они могут привести к приемлемому решению, то ИИ найдет их. Взглянув на такие результаты, мы можем сказать, что технически ИИ следовал правилам. Но все же мы будем чувствовать в этом отклонение и обман, потому что понимаем социальный контекст проблемы так, как не понимает его ИИ. Просто у нас другие ожидания. Исследователи называют эту проблему «согласованием целей».

Ее хорошо иллюстрирует миф о царе Мидасе. Когда бог Дионис готов исполнить его единственное желание, Мидас просит, чтобы все, к чему он прикоснется, превращалось в золото. В итоге Мидас умирает от голода и несчастий, поскольку вся еда, питье и даже его дочь превращаются в непригодное для употребления в пищу и безжизненное золото. Это не что иное, как проблема согласования целей: Мидас неверно запрограммировал цель в своей системе желаний.

Джинны в сказках тоже весьма привередливы к формулировкам желаний и могут быть злонамеренно педантичны, исполняя их. Но перехитрить джинна невозможно. Что бы вы ни пожелали, джинн всегда сможет исполнить это так, чтобы вам захотелось все отменить. Джинн всегда сможет хакнуть ваше желание.

В более общем смысле наши цели и желания всегда недостаточно конкретны{253}. Мы никогда не представляем себе всех возможных вариантов. Мы никогда не формулируем все нюансы, исключения и оговорки. Мы просто не способны перекрыть все пути для хака. Любая цель, которую мы укажем, обязательно будет неполной.

Это приемлемо в человеческих отношениях, потому что люди понимают контекст и обычно действуют добросовестно. Мы все социализированы и в процессе становления познаем, что значит здравый смысл в отношении людей и окружающего мира. Мы заполняем любые пробелы в нашем понимании контекстом и доброй волей.

Философ Эбби Эверетт Жак, в то время руководитель проекта MIT по этике ИИ, объяснил это так: «Если бы я попросил вас принести мне кофе, вы, вероятно, пошли бы к ближайшему кофейнику и наполнили чашку, а может быть, дошли бы до кофейни на углу. Вы бы не привезли мне грузовик с сырыми кофейными зернами. И не купили бы кофейную плантацию в Коста-Рике. Вы также не стали бы вырывать из рук чашку кофе у первого попавшегося человека. Холодный кофе недельной давности или грязную салфетку, пропитанную искомым напитком, вы бы тоже не принесли. Мне не нужно было бы все это уточнять в своей просьбе. Вы и так прекрасно понимаете, что значит "принести кофе"».

Точно так же, если я попрошу вас разработать технологию, которая при прикосновении превращает вещи в золото, вы не станете создавать ее такой, чтобы она морила меня голодом. Мне не нужно было бы указывать это, вы бы это просто знали.

Мы не можем полностью указать цели для ИИ, а ИИ не сможет полностью понять контекст. В своем выступлении на TED исследователь ИИ Стюарт Рассел пошутил о гипотетическом ИИ-помощнике{254}, который, для того чтобы оправдать опоздание своего хозяина на званый ужин, устраивает сбой в компьютерной системе самолета, в котором тот летит. Аудитория оценила шутку, но ведь на самом деле откуда компьютерной программе знать, что вмешательство в работу систем летящего самолета не является адекватным ответом на подобную просьбу? Возможно, она обучилась на данных отчетов о пассажирах, пытавшихся сделать нечто подобное{255}. (В 2017 г. в интернете ходила шутка. Джефф Безос: «Алекса, купи мне что-нибудь в Whole Foods». Алекса: «ОК, покупаю Whole Foods».)

Перейти на страницу: