Халеви, Норвиг и Перейра отмечали, что эта база, взятая из Интернета, во многом отличалась от курируемых версий, которыми пользовались предыдущие исследователи. В ней было полно незаконченных предложений, грамматических и орфографических ошибок, она не была привязана к грамматическим конструкциям и не содержала аннотацию. Но тот факт, что она была в миллион раз объемнее, перекрывал все эти недостатки. «База объемом в триллион слов – вместе с другими фигурами речи из Интернета, из миллионов, миллиардов или триллионов ссылок, видео, изображений, таблиц и взаимодействий пользователей – охватывает даже очень редкие аспекты человеческого поведения», – писали они. Вместо того чтобы создавать все более сложные языковые модели, исследователи начали «использовать лучшего имеющегося союзника: необъяснимую эффективность данных». Путем к пониманию языка были не сложные, основанные на правилах модели: нужно было просто воспользоваться статистическим анализом и позволить данным самим рассказать им, какой должна быть модель.
Хотя в этом докладе основное внимание уделялось переводу с одного языка на другой, он обобщил понимание того, каким должен быть подход для успеха основного поискового сервиса Google. Достигнутое понимание того, что «простые модели и множество данных лучше, чем более сложные модели, основанные на меньшем количестве данных», стало основополагающим для прогресса во всех областях и легло в основу работы множества компаний Кремниевой долины. Еще более важное значение это имеет для последних достижений в области искусственного интеллекта.
В 2008 году Дж. Патил из компании LinkedIn и Джефф Хаммербачер из Facebook ввели термин «наука о данных», чтобы описать свою работу. Они дали название сфере деятельности, которую несколько лет спустя журнал Harvard Business Review назвал «самой сексуальной работой XXI века». Понимание менталитета науки о данных, подхода к ней и того, чем она отличается от старых методов программирования, имеет решающее значение для всех, кто решает сложные задачи XXI века.
Из того, как Google работает над качеством поиска, можно извлечь важные уроки. Вначале корпорация Google взяла на себя обязательство выдавать результаты поисковых запросов, основываясь на статистических методах, с явно предвзятым отношением к устранению проблем вручную. Ответ на поисковый запрос «Питер Норвиг» должен содержать такие вещи, как его страница в Википедии и его биография на официальном сайте компании, – это должно было находиться вверху поисковой выдачи. Если какая-то страница низкого качества выходила в топ, одним из способов исправить это могло бы стать добавление правила «для запроса «Питер Норвиг» не позволять такой-то странице выходить в топ-10». Google решил не делать этого, а искать корень проблемы. В этом случае решением могло стать нечто вроде «при поиске любого известного человека отдавать предпочтение высококачественным энциклопедическим источникам (например, Википедии)».
Функция приспособленности Команды качественных поисковых запросов Google всегда была актуальной: нашел ли пользователь то, что искал? Один из сигналов, используемых сейчас Google, предельно ясно отражает идею – это сравнение «длинного клика» с «коротким кликом». Если пользователь переходит по первому выданному результату поиска и не возвращается, он, скорее всего, удовлетворен результатом. Если пользователь нажимает на первый результат поиска, проводит некоторое время на этой странице, а затем возвращается, чтобы щелкнуть по строке второго результата, скорее всего, он не совсем удовлетворен. Если пользователи возвращаются сразу же, это сигнал того, что они увидели совсем не то, что искали, и так далее. Если «длинный клик» отмечается на втором, или третьем, или на пятом результате чаще, чем на первом, возможно, этот результат наиболее актуален. Когда один человек делает это, это может быть случайностью. Когда миллионы людей делают один и тот же выбор, это, безусловно, сообщает вам нечто важное.
Статистические методы становятся не только все более мощными; они становятся все более быстрыми и более утонченными. Если наши разработчики программного обеспечения когда-то клепали роботизированные механизмы, то теперь они производят нечто больше похожее на джиннов, могущественных независимых духов из арабской мифологии, которых можно заставить исполнять наши желания, но которые так часто искусно интерпретируют желание своего хозяина в максимально невыгодном для него свете. Подобно метле из диснеевской версии фильма «Ученик чародея», алгоритмические джинны делают все, о чем мы их попросим, но их трактовки могут быть слишком бестолковыми и однобокими, что приводит к непредвиденным и иногда пугающим результатам. Как нам добиться того, чтобы они делали то, что мы их просим?