Читаем Мозговой трест. 39 ведущих нейробиологов – о том, что мы знаем и чего не знаем о мозге полностью

Обучение методом временных разностей может показаться не слишком эффективным, поскольку обратная связь состоит лишь в том, получаете вы вознаграждение или нет. Однако некоторые варианты применения такого обучения показали, что в сочетании с другими алгоритмами оно может быть весьма мощным инструментом. Джерри Тезауро работал со мной над обучением нейросети игре в нарды. Эта игра очень популярна на Ближнем Востоке, и некоторые даже зарабатывают на жизнь игрой с высокими ставками. Это соревнование между двумя игроками — кто раньше снимет с доски свои шашки. Скорость перемещения шашек определяется броском игральной кости, ходы делаются по очереди. В отличие от детерминированных игр вроде шахмат, в нардах неопределенность результата при броске игральной кости значительно затрудняет предсказание результата каждого хода. Стратегия игры в нарды в программе Джерри определялась на основе функции ценности, которая рассчитывала вероятность выиграть матч на основе всех возможных позиций на доске, каждой из которых группа мастеров этой игры присваивала оценку. Программа анализировала все возможные ходы в конкретной позиции и выбирала ход с наивысшей оценкой.

В нашем подходе для обучения нейросети оценке игровых позиций и выбору ходов использовалось экспертное знание. Недостаток этого подхода состоит в необходимости собрать и хранить множество экспертных оценок; кроме того, программа по определению не могла играть лучше экспертов. Когда Джерри перешел в исследовательский центр IBM имени Томаса Уотсона, он переключился с метода контролируемого обучения на метод временны

х разностей и заставил программу играть саму с собой. Проблема игры с собой заключается в том, что единственный обучающий сигнал — это выигрыш или проигрыш всей партии, а информация о влиянии на победу или поражение каждого из множества ходов отсутствует.

В начале обучения игре в нарды ходы вычислительной машины были случайными, но в итоге одна из сторон выигрывала. Сначала система вознаграждения обучала программу «выигрывать», то есть снимать все шашки с доски к концу игры. Когда программа освоила завершение игры, функция ценности для выигрыша начала обучать функцию ценности для середины игры, где приходилось принимать сложные решения о взаимодействии с шашками противника. Наконец, после ста тысяч партий, функция ценности научилась разыгрывать дебют, в котором шашки занимают оборону, чтобы помешать продвижению шашек противника. Процесс обучения шел с конца игры, где вознаграждение очевидно, к началу, с использованием неявного вознаграждения, рассчитанного функцией ценности. Таким образом, обратная последовательность функции ценности позволяет слабому обучающему сигналу (такому, как в дофаминовой системе вознаграждения) обучать машину последовательности решений, ведущих к достижению отдаленной цели.

Программа Тезауро, получившая название TD-Gammon, была представлена миру в 1992 году и удивила меня и многих других[470]

. Функция ценности использовала несколько сотен смоделированных нейронов — по нынешним меркам это относительно небольшая нейросеть. После ста тысяч партий программа начала выигрывать у Джерри, и он позвонил Биллу Роберти, мастеру игры в нарды из Нью-Йорка, и тот приехал в исследовательский центр IBM, чтобы сыграть с компьютером. Роберти выиграл большинство партий, но был удивлен, проиграв несколько напряженных поединков. Он заявил, что это лучшая программа для игры в нарды из всех, с которыми он имел дело. Некоторые ходы компьютера были необычными, каких он не видел раньше; при тщательном анализе выяснилось, что эта стратегия лучше той, к которой обычно прибегают люди. Роберти вернулся, когда программа сыграла сама с собой миллион партий, и был поражен ничейным исходом серии поединков с TD-Gammon. Возможно, вам покажется, что миллион — это много, но программа ознакомилась лишь с ничтожно малой долей возможных позиций на доске. TD-Gammon приходилось сводить к общим правилам каждую новую позицию почти после каждого хода.

Перейти на страницу:

Похожие книги

Гиперпространство. Научная одиссея через параллельные миры, дыры во времени и десятое измерение
Гиперпространство. Научная одиссея через параллельные миры, дыры во времени и десятое измерение

Инстинкт говорит нам, что наш мир трёхмерный. Исходя из этого представления, веками строились и научные гипотезы. По мнению выдающегося физика Митио Каку, это такой же предрассудок, каким было убеждение древних египтян в том, что Земля плоская. Книга посвящена теории гиперпространства. Идея многомерности пространства вызывала скепсис, высмеивалась, но теперь признаётся многими авторитетными учёными. Значение этой теории заключается в том, что она способна объединять все известные физические феномены в простую конструкцию и привести учёных к так называемой теории всего. Однако серьёзной и доступной литературы для неспециалистов почти нет. Этот пробел и восполняет Митио Каку, объясняя с научной точки зрения и происхождение Земли, и существование параллельных вселенных, и путешествия во времени, и многие другие кажущиеся фантастическими явления.

Мичио Каку

Зарубежная образовательная литература, зарубежная прикладная, научно-популярная литература
Происхождение эволюции. Идея естественного отбора до и после Дарвина
Происхождение эволюции. Идея естественного отбора до и после Дарвина

Теория эволюции путем естественного отбора вовсе не возникла из ничего и сразу в окончательном виде в голове у Чарльза Дарвина. Идея эволюции в разных своих версиях высказывалась начиная с Античности, и даже процесс естественного отбора, ключевой вклад Дарвина в объяснение происхождения видов, был смутно угадан несколькими предшественниками и современниками великого британца. Один же из этих современников, Альфред Рассел Уоллес, увидел его ничуть не менее ясно, чем сам Дарвин. С тех пор работа над пониманием механизмов эволюции тоже не останавливалась ни на минуту — об этом позаботились многие поколения генетиков и молекулярных биологов.Но яблоки не перестали падать с деревьев, когда Эйнштейн усовершенствовал теорию Ньютона, а живые существа не перестанут эволюционировать, когда кто-то усовершенствует теорию Дарвина (что — внимание, спойлер! — уже произошло). Таким образом, эта книга на самом деле посвящена не происхождению эволюции, но истории наших представлений об эволюции, однако подобное название книги не было бы настолько броским.Ничто из этого ни в коей мере не умаляет заслуги самого Дарвина в объяснении того, как эволюция воздействует на отдельные особи и целые виды. Впервые ознакомившись с этой теорией, сам «бульдог Дарвина» Томас Генри Гексли воскликнул: «Насколько же глупо было не додуматься до этого!» Но задним умом крепок каждый, а стать первым, кто четко сформулирует лежащую, казалось бы, на поверхности мысль, — очень непростая задача. Другое достижение Дарвина состоит в том, что он, в отличие от того же Уоллеса, сумел представить теорию эволюции в виде, доступном для понимания простым смертным. Он, несомненно, заслуживает своей славы первооткрывателя эволюции путем естественного отбора, но мы надеемся, что, прочитав эту книгу, вы согласитесь, что его вклад лишь звено длинной цепи, уходящей одним концом в седую древность и продолжающей коваться и в наше время.Само научное понимание эволюции продолжает эволюционировать по мере того, как мы вступаем в третье десятилетие XXI в. Дарвин и Уоллес были правы относительно роли естественного отбора, но гибкость, связанная с эпигенетическим регулированием экспрессии генов, дает сложным организмам своего рода пространство для маневра на случай катастрофы.

Джон Гриббин , Мэри Гриббин

Зарубежная образовательная литература, зарубежная прикладная, научно-популярная литература / Научно-популярная литература / Образование и наука