Сравните 10 штатов с наибольшим числом абортариев на душу населения (в список которых входят в том числе Нью-Йорк и Калифорния) с десяткой регионов с наименьшим их количеством на душу населения (список включает в том числе Миссисипи и Оклахому). Женщины из штатов с наименьшим количеством абортариев совершили на 54 % меньше легальных абортов. Разница – в 11 абортов на каждую тысячу женщин в возрасте от 15 до 44 лет. При этом женщины, живущие в регионах с наименьшим количеством абортариев, чаще рожали. Однако этого недостаточно для компенсации снижения числа абортов. Разница – в шесть родов на каждую тысячу женщин детородного возраста.
Иными словами, похоже, в тех областях страны, где было труднее сделать аборт, существовали «потерянные» беременности. Официальные источники не говорят нам, что произошло с этими пятью не случившимися родами на каждую тысячу женщин.
Однако Google дает неплохие подсказки.
Мы не можем слепо доверять правительственным данным. Государство может сказать нам, что количество жестоких обращений с детьми или число абортов снизились, и политики отпразднуют это как свое достижение. Но, как мы уже видели, подобные результаты могут быть следствием неверного метода сбора данных. Правда может быть иной, и иногда очень даже неприятной.
Правда о ваших друзьях на Facebook
В целом моя книга – о больших данных. Но эта глава в основном посвящена поиску в Google, где, как я понял, перед нами предстает ранее скрытый мир, сильно отличающийся от того, что мы видим вокруг себя. Но являются ли и другие источники больших данных цифровой сывороткой правды? На самом деле, многие из них – такие как Facebook – часто представляют собой полную ее противоположность.
В социальных сетях, так же, как и в опросах, у вас нет стимула проявлять честность. Наоборот, там – намного больше, чем в опросах – вам хочется лучше выглядеть. Ведь, прежде всего, ваше присутствие в интернете не анонимно – вы любезничаете с аудиторией и рассказываете о себе друзьям, членам семьи, коллегам, знакомым и незнакомым людям.
Чтобы понять, насколько неточными и необъективными могут быть сведения в соцсетях, можно рассмотреть относительную популярность респектабельного, высоколобого ежемесячного журнала
Однако на Facebook примерно 1,5 миллиона{108}
человек обсуждают в своих профилях статьи из «Данные о тираже являются эталоном для оценки популярности СМИ. С ними может сравниться статистика поисковых запросов в Google. А негативные отзывы о желтой газетенке в Facebook по большей части являются предвзятыми – соответственно, эта сеть является худшим источником данных для определения того, что нравится людям.
На Facebook такая картина во всем – как в отношении журналов, так и в плане любых житейских предпочтений. В соцсети мы выставляем свой улучшенный, окультуренный портрет, а не истинное лицо. В этой книге, в частности, в данной главе, я использую данные Facebook – но всегда помня об этой особенности.
Чтобы лучше понять, чего не хватает в информации из социальных сетей, вернемся на минутку к порнографии. Во-первых, нужно рассмотреть всеобщее убеждение о том, что в интернете преобладают чернуха и похабщина. Это неправда. Основная часть контента в интернете отнюдь не порнографическая. Например, ни один из 10 наиболее посещаемых веб-сайтов{109}
не связан с порнографией, поэтому популярность порно – надо признать, она весьма высока – не стоит преувеличивать.Итак, внимательно оценив то, как нам нравится порнография и какую долю контента она занимает, можно утверждать: Facebook, Instagram и Twitter являются лишь очень ограниченной выборкой из того, что по-настоящему популярно в интернете. В Сети имеются большие подмассивы данных, которые невероятно популярны, но не особо бросаются в глаза.
Наиболее известным видео за все время (на момент написания этой книги) является «Gangnam Style» от Psy – тупое видео с поп-музыкой, в котором высмеиваются корейские модники. С момента дебюта в 2012 году только на YouTube его просмотрели около 2,3 миллиарда раз. И его популярность понятна – неважно, на каком сайте вы его нашли. Оно распространялось на различных социальных медиаплатформах десятки миллионов раз.