Читаем Все лгут. Поисковики, Big Data и Интернет знают о вас всё полностью

Сравните 10 штатов с наибольшим числом абортариев на душу населения (в список которых входят в том числе Нью-Йорк и Калифорния) с десяткой регионов с наименьшим их количеством на душу населения (список включает в том числе Миссисипи и Оклахому). Женщины из штатов с наименьшим количеством абортариев совершили на 54 % меньше легальных абортов. Разница – в 11 абортов на каждую тысячу женщин в возрасте от 15 до 44 лет. При этом женщины, живущие в регионах с наименьшим количеством абортариев, чаще рожали. Однако этого недостаточно для компенсации снижения числа абортов. Разница – в шесть родов на каждую тысячу женщин детородного возраста.

Иными словами, похоже, в тех областях страны, где было труднее сделать аборт, существовали «потерянные» беременности. Официальные источники не говорят нам, что произошло с этими пятью не случившимися родами на каждую тысячу женщин.

Однако Google дает неплохие подсказки.

Мы не можем слепо доверять правительственным данным. Государство может сказать нам, что количество жестоких обращений с детьми или число абортов снизились, и политики отпразднуют это как свое достижение. Но, как мы уже видели, подобные результаты могут быть следствием неверного метода сбора данных. Правда может быть иной, и иногда очень даже неприятной.

Правда о ваших друзьях на Facebook

В целом моя книга – о больших данных. Но эта глава в основном посвящена поиску в Google, где, как я понял, перед нами предстает ранее скрытый мир, сильно отличающийся от того, что мы видим вокруг себя. Но являются ли и другие источники больших данных цифровой сывороткой правды? На самом деле, многие из них – такие как Facebook – часто представляют собой полную ее противоположность.

В социальных сетях, так же, как и в опросах, у вас нет стимула проявлять честность. Наоборот, там – намного больше, чем в опросах – вам хочется лучше выглядеть. Ведь, прежде всего, ваше присутствие в интернете не анонимно – вы любезничаете с аудиторией и рассказываете о себе друзьям, членам семьи, коллегам, знакомым и незнакомым людям.

Чтобы понять, насколько неточными и необъективными могут быть сведения в соцсетях, можно рассмотреть относительную популярность респектабельного, высоколобого ежемесячного журнала «Atlantic»

и газеты «National Enquirer», набитой сплетнями и сенсациями. Оба издания имеют схожие средние тиражи{107} – по нескольку сотен тысяч экземпляров. («National Enquirer» выходит еженедельно, так что на самом деле продает больше копий.) Сопоставимо и число поисковых запросов в Google о каждом из них.

Однако на Facebook примерно 1,5 миллиона{108}

человек обсуждают в своих профилях статьи из «Atlantic» и только около 50 тысяч признаются, что читают «National Enquirer «или обсуждают ее содержание.



Данные о тираже являются эталоном для оценки популярности СМИ. С ними может сравниться статистика поисковых запросов в Google. А негативные отзывы о желтой газетенке в Facebook по большей части являются предвзятыми – соответственно, эта сеть является худшим источником данных для определения того, что нравится людям.

На Facebook такая картина во всем – как в отношении журналов, так и в плане любых житейских предпочтений. В соцсети мы выставляем свой улучшенный, окультуренный портрет, а не истинное лицо. В этой книге, в частности, в данной главе, я использую данные Facebook – но всегда помня об этой особенности.

Чтобы лучше понять, чего не хватает в информации из социальных сетей, вернемся на минутку к порнографии. Во-первых, нужно рассмотреть всеобщее убеждение о том, что в интернете преобладают чернуха и похабщина. Это неправда. Основная часть контента в интернете отнюдь не порнографическая. Например, ни один из 10 наиболее посещаемых веб-сайтов{109} не связан с порнографией, поэтому популярность порно – надо признать, она весьма высока – не стоит преувеличивать.

Итак, внимательно оценив то, как нам нравится порнография и какую долю контента она занимает, можно утверждать: Facebook, Instagram и Twitter являются лишь очень ограниченной выборкой из того, что по-настоящему популярно в интернете. В Сети имеются большие подмассивы данных, которые невероятно популярны, но не особо бросаются в глаза.

Наиболее известным видео за все время (на момент написания этой книги) является «Gangnam Style» от Psy – тупое видео с поп-музыкой, в котором высмеиваются корейские модники. С момента дебюта в 2012 году только на YouTube его просмотрели около 2,3 миллиарда раз. И его популярность понятна – неважно, на каком сайте вы его нашли. Оно распространялось на различных социальных медиаплатформах десятки миллионов раз.

Перейти на страницу:

Все книги серии IT - бестселлер

Похожие книги

Оптимизация BIOS. Полный справочник по всем параметрам BIOS и их настройкам
Оптимизация BIOS. Полный справочник по всем параметрам BIOS и их настройкам

Прочтя эту книгу, вы узнаете, что представляет собой BIOS, какие типы BIOS существуют, как получить доступ к BIOS и обновлять ее. Кроме того, в издании рассказано о неполадках в работе BIOS, которые приводят, например, к тому, что ваш компьютер не загружается, или к возникновению ошибок в BIOS. Что делать в этот случае? Как устранить проблему? В книге рассказывается об этом и даже приводится описание загрузки BIOS во флэш-память.Также вы научитесь использовать различные функции BIOS, узнаете, как оптимизировать их с целью улучшения производительности и надежности системы. Вы поймете, почему рекомендуемые установки являются оптимальными.После прочтения книги вы сможете оптимизировать BIOS не хуже профессионала!Книга предназначена для всех пользователей компьютера – как начинающих, которые хотят научиться правильно и грамотно настроить свою машину, используя возможности BIOS, так и профессионалов, для которых книга окажется полезным справочником по всему многообразию настроек BIOS. Перевод: А. Осипов

Адриан Вонг

Зарубежная компьютерная, околокомпьютерная литература / Программирование / Книги по IT