Еще один аспект обучения того алгоритма, с которым мы взаимодействуем, касается спам-фильтров наших приложений электронной почты. Обучение начинается с тренировки на целой куче сообщений, часть которых помечены как спам, а остальные считаются доброкачественными. На этом этапе в их число не входят сообщения, адресованные именно вам. Алгоритм анализирует слова, появляющиеся в этих сообщениях, и начинает создавать профиль спама: 100 % сообщений, в которых встречалось слово «Виагра», были спамом; 99 % сообщений, в которых встречалось слово «рефинансирование», были спамом; 100 % сообщений, в которых встречалось сочетание «аппетитные русские», были спамом. Труднее разобраться со словом «диабет». По-видимому, по электронной почте рассылается множество спама с рекламой лечения от диабета, но это же слово встречается и в некоторых доброкачественных почтовых сообщениях. Алгоритм просто подсчитывает соотношение тех и других случаев в своих тренировочных данных. Скажем, если одно из двадцати сообщений, содержащих слово «диабет», оказывается доброкачественным, алгоритм будет считать, что это слово является признаком спама с вероятностью 95 %.
В фильтре электронной почты можно установить разные уровни фильтрации. Можно сказать ему, что сообщения следует отправлять в папку нежелательной почты, только если он на 95 % уверен, что это спам. Но тут и начинается самое интересное. Алгоритм обучался на наборе обезличенных сообщений, но ваши действия учат его распознавать то, что интересует именно вас. Он учится реагировать на сообщения именно такого типа, какой получаете вы. Предположим, например, что вы действительно больны диабетом. Сначала все сообщения со словом «диабет» будут отбраковываться. Но постепенно, по мере того как вы будете помечать все большее число сообщений со словом «диабет» как доброкачественные, алгоритм перенастроит свою калибровку вероятности, пока она не снизится до уровня гораздо более низкого, чем 95 %, и такие сообщения не станут поступать в папку «Входящие».
Устройство этих алгоритмов таково, что они начинают замечать другие ключевые слова, по которым связанный с диабетом спам можно отличить от нормальных сообщений. Например, наличие в письме слова «исцеление» вполне может быть признаком фальшивки. Машинное обучение заставляет алгоритм просматривать все входящие сообщения в поисках закономерностей и связей, в результате чего в конце концов получается индивидуализированный алгоритм, приспособленный именно к вашему личному образу жизни.
Корректировка вероятностей лежит и в основе работы беспилотных автомобилей. По сути дела, речь идет всего лишь о более замысловатом варианте управления ракеткой в игре Breakout. Руль поворачивается вправо либо влево в зависимости от пиксельных данных, которые машина получает в тот или иной момент. Интересно, что происходит из-за этого с моим счетом – растет он или уменьшается?
В том, как рекомендательный алгоритм Netflix сумел обнаружить в фильмах характеристики, которые людям трудно было бы сформулировать, есть нечто сверхъестественное. Эта история явно опровергает мнение Лавлейс, что возможности машины всегда будут ограничены идеями человека, который ее программирует. Сегодня алгоритмы обладают способностями, которых у нас нет: они могут оценивать огромные массивы данных и разбираться в них.
Это эволюционный недостаток человеческого мозга. Именно поэтому мозг не очень хорошо умеет оценивать вероятности. Вероятностная интуиция требует понимания тенденций в многократно повторенных опытах. Проблема в том, что нам не приходится переживать такого большого числа повторений одного и того же опыта и мы не можем развить в себе такую интуицию. В некотором смысле человеческий код сформировался именно для того, чтобы компенсировать низкий уровень нашего взаимодействия с данными. Поэтому вполне возможно, что благодаря машинному обучению мы в конце концов получим коды, дополняющие наш собственный, а не повторяющие его.
Вероятность играет ключевую роль во многих аспектах машинного обучения. Многие из алгоритмов, о которых мы говорили в главе 4, были реализованы детерминистским образом. Человек понимал, как устроена та или иная задача, и программировал компьютер, который затем с рабской покорностью исполнял все те трюки, на исполнение которых он был запрограммирован. Это было похоже на ньютоновское мировоззрение, в котором Вселенная управляется математическими уравнениями и задача ученого состоит в открытии этих правил и предсказании будущего на их основе.