Базальные ядра есть в мозге у всех млекопитающих. В базальных ядрах дофаминовые нейроны отвечают за одну из форм обучения, которую называют ассоциативным обучением. Вспомним знаменитую собаку Павлова. В эксперименте Павлова сенсорный стимул, например звонок (условный стимул), предшествовал приему пищи (безусловный стимул), который вызывал слюноотделение (безусловный рефлекс). После нескольких повторений звонок также начинал вызывать у собаки слюноотделение (условный рефлекс). Разные животные предпочитают разные ассоциативные стимулы: например, пчелы хорошо реагируют на запах, цвет и форму цветка, используя выученную ассоциацию для поиска похожих цветов, когда те расцветают. По всей видимости, эта универсальная форма обучения очень важна, и в 1960-е годы психологи активно изучали условия, способствующие ассоциативному обучению, и разрабатывали модели для его объяснения.
С вознаграждением ассоциируется только тот стимул, который ему предшествует[466]
. Это логично, поскольку стимул, возникающий до вознаграждения, с большей вероятностью окажется его причиной, чем тот, который поступит после вознаграждения. В природе принцип причинности играет важную роль.Предположим, вы приняли ряд решений для достижения цели. Если вы не будете знать наперед результат каждого из этих решений, вам придется учиться на собственном опыте в реальном времени. Если вы получаете вознаграждение по итогам последовательности решений, как узнать, какое из них привело к положительному результату? Алгоритм обучения, который может ответить на этот вопрос, называется методом временного присваивания коэффициентов доверия. Он был разработан Ричардом Саттоном в Массачусетском университете в Амхерсте в 1988 году[467]
. В тесном сотрудничестве с Эндрю Барто, своим научным руководителем, Саттон работал над сложными вопросами обучения с подкреплением — это метод машинного обучения, образцом для которого стало ассоциативное обучение у животных. При обучении методом временнПчелы — лучшие ученики в мире насекомых. Им требуется лишь несколько полетов к цветку с нектаром, чтобы запомнить его. Это быстрое обучение исследовалось в лаборатории Рэндольфа Мензеля в Берлине, когда я приехал туда в 1992 году. Мозг пчелы состоит из миллиона нейронов, и регистрировать их электрические сигналы очень трудно. Мартин Хаммер из группы Мензеля открыл уникальный нейрон, названный VUMmx1, который реагирует усилением электрической активности на сахарозу, но не на запах; однако если вскоре после обоняния запаха пчела получала вознаграждение в виде сахарозы, VUMmx1 начинал реагировать и на запах.
Когда я вернулся в Ла-Хойю, сотрудник моей лаборатории Питер Дэйан, специалист по обучению с подкреплением, сразу же понял, что этот нейрон можно использовать для обучения методом временн