Понятия иерархии и параллельного функционирования – вот главные ключи к зрительной системе приматов. Мысленный образ, разложенный сетчаткой на множество «пикселей», постепенно собирается заново пирамидой нейронов, работающих одновременно. На первый взгляд такой подход может показаться неэффективным: в таком случае каждому из возможных фрагментов, составляющих зрительную сцену, должны быть посвящены миллионы нейронов. Нагрузка на нервную систему, однако, относительно невелика: все, что мы видим, распределяется по гигантской сети простых параллельных процессоров. Подобно тому, как колония муравьев обладает более высоким интеллектом, нежели один муравей, коллективная работа миллионов нейронов позволяет выполнять операции гораздо более сложные, чем те, на которые способна одна клетка. В действительности огромное количество вычислительных блоков приводит к значительной экономии времени обработки. Одиночные нейроны работают медленно. Они получают и передают информацию примерно за 10 миллисекунд, что в миллион раз медленнее скорости электронного микропроцессора. Однако, объединяя активность миллионов нервных клеток, наша зрительная система становится самым эффективным компьютером в мире: ей требуется всего одна шестая доля секунды, чтобы заметить лицо независимо от его внешних особенностей и пространственного расположения[226]
.Архитектура мозга вдохновила многих программистов. В настоящее время доступны несколько компьютерных моделей зрительной иерархии, которые я описал[227]
. Лучшие из них близки к человеческой как по скорости, так и по степени искажения изображения, которую они допускают. Благодаря этим искусственным нейросетям автоматическое распознавание лиц больше не воспринимается как что-то из области научной фантастики. Это часть реальной жизни – самая простая цифровая камера сегодня может распознавать лица и улыбки.Алфавит в мозге обезьяны
Пирамидальная модель предполагает, что нейронный код для любого зрительного объекта состоит из иерархии нервных клеток, каждая из которых обнаруживает наличие некоего фрагмента этого объекта в получаемом изображении. Большинство таких нейронов, вероятно, реагируют на упрощенные и ограниченные виды объектов или их частей. Используя эту гипотезу в качестве отправной точки, японский нейробиолог Кэйдзи Танака сделал любопытное открытие: мозг обезьяны содержит мозаику нейронов, посвященных фрагментам формы. В совокупности эти примитивные очертания образуют своего рода «нейронный алфавит», комбинации которого могут описать любую сложную форму.
Для изучения нейронного кода объектов Танака и его коллеги разработали специальный алгоритм, постепенно упрощавший сложные сцены (рис. 3.6). Они брали образ, который провоцировал энергичные разряды нейрона, а затем сводили его к самой простой возможной форме, которая по-прежнему вызывала возбуждение. Рассмотрим нейрон, изначально реагировавший на вид кошки. Танака обнаружил, что эта клетка так же активно срабатывала при виде двух соприкасающихся дисков. Другому нейрону «нравилась» форма яблока, но он так же хорошо откликался на черный кружок с «хвостиком». Третий нейрон, который срабатывал при виде куба, в действительности обнаруживал только Y-образное пересечение его центральных граней. Иными словами, большинство клеток в нижневисочной коре разряжались независимо от кардинальных упрощений изображения[228]
.Записав активность сотен нейронов, Танака смог реконструировать приблизительную мозаику объектных клеток на поверхности коры обезьяны. Предпочтения отдельных нейронов менялись плавно: как правило, соседние клетки кодировали схожие формы (рис. 3.6). Например, один сектор отвечал за варианты Y и T. Другие участки специализировались на формах, напоминавших звезды, упрощенный профиль лица или цифру 8. Танака фактически обнаружил целый корковый каталог элементарных форм. В любом заданном месте коры все нейроны внутри вертикальной корковой колонки «интересовались» более или менее похожими фигурами. При этом каждый из них был чувствителен к мельчайшим метрическим отклонениям от базового прототипа.
В совокупности эти клетки обеспечивают алфавит форм, который позволяет классифицировать любое изображение (лицо это или нет?) и выделить его детали, ответив на вопросы: Это лицо Дженнифер Энистон? Сколько ей лет? Она счастлива? Объединяя отклики миллионов таких детекторов, мозг кодирует каждую из миллиардов картинок, которые мы можем увидеть в природе.