Читаем Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим полностью

Эта информация всегда была очевидной, была на виду. Но анализ случайной выборки может не выявить такие закономерности. Анализ больших данных, напротив, показывает ее с помощью гораздо большего набора данных, стремясь исследовать всю совокупность боев. Это похоже на рыбалку, в которой нельзя сказать заранее, удастся ли что-то поймать и что именно.

Набор данных не всегда измеряется терабайтами. В случае сумо весь набор данных содержал меньше бит, чем обычная цифровая фотография. Но так как анализировались большие данные, в расчет бралось больше данных, чем при случайной выборке. В этом и общем смысле «большой» — скорее относительное понятие, чем абсолютное (в сравнении с полным набором данных).

В течение долгого времени случайная выборка считалась хорошим решением. Она позволяла анализировать проблемы больших данных в предцифровую эпоху. Однако при выборке часть данных теряется, как и в случае преобразования цифрового изображения или песни в файл меньшего размера. Наличие полного (или почти полного) набора данных дает гораздо больше свободы для исследования и разностороннего рассмотрения данных, а также более подробного изучения их отдельных особенностей.

Подходящий пример — камера Lytro. Она стала революционным открытием, так как применяет большие данные к основам технологии фотографии. Эта камера захватывает не только одну световую плоскость, как обычные камеры, но и около 11 миллионов лучей всего светового поля. Точное изображение, получаемое из цифрового файла, можно в дальнейшем изменять в зависимости от того, на какой объект кадра нужно настроить фокус. Благодаря сбору всех данных не обязательно настраивать фокус изображения изначально, ведь он настраивается на любой объект изображения после того, как снимок уже сделан. Снимок содержит лучи всего светового поля, а значит, и все данные, то есть «N

= всё». В результате информация лучше подходит для «повторного использования», чем обычные изображения, когда фотографу нужно выбрать объект фокусировки, прежде чем нажать на кнопку затвора.

Поскольку большие данные опираются на всю или максимально возможную информацию, точно так же мы можем рассматривать подробности и проводить новый анализ, не рискуя четкостью. Мы проверим новые гипотезы на любом уровне детализации. Это позволяет обнаруживать случаи договорных боев в борьбе сумо, распространение вируса гриппа по регионам, а также лечить раковые заболевания, воздействуя целенаправленно на поврежденную часть ДНК. Таким образом, мы можем работать на небывало глубоком уровне понимания.

Следует отметить, что не всегда необходимы все данные вместо выборки. Мы все еще живем в мире ограниченных ресурсов. Однако все чаще целесообразно использовать все имеющиеся данные. И если ранее это было невозможно, то теперь — наоборот.

Подход «N = всё» оказал значительное влияние на общественные науки. Они утратили свою монополию на осмысление эмпирических данных, а анализ больших данных заменил ранее востребованных высококвалифицированных специалистов по выборкам. Общественные дисциплины во многом полагаются на выборки, исследования и анкеты. Но если данные собираются пассивно, в то время как люди заняты обычными делами, погрешности, связанные с исследованиями и анкетами, сходят на нет. Теперь мы можем собирать информацию, недоступную ранее, будь то чувства, высказанные по мобильному телефону, или настроения, переданные в твитах. Более того, исчезает сама необходимость в выборках.[36]

Альберт-Лазло Барабаши, один из ведущих мировых авторитетов в области сетей, и его коллеги исследовали взаимодействия между людьми в масштабе всего населения. Для этого они проанализировали все журналы анонимного мобильного трафика за четыре месяца, полученные от оператора беспроводной связи, который обслуживал около пятой части всего населения страны. Это был первый анализ сетей на общественном уровне, в котором использовался набор данных в рамках подхода «N = всё». Благодаря масштабу, который позволил учесть звонки миллионов людей в течение длительного времени, появились новые идеи, которые, скорее всего, не удалось бы выявить другим способом.[37]

Команда обнаружила интересную закономерность, не свойственную небольшим исследованиям: если удалить из сети людей, имеющих множество связей в сообществе, оставшаяся социальная сеть станет менее активной, но останется на плаву. С другой стороны, если из сети удалить людей, имеющих связи за пределами их непосредственного окружения, оставшаяся социальная сеть внезапно распадется, словно повредили саму ее структуру. Это стало важным, но совершенно неожиданным открытием. Кто бы мог подумать, что люди с большим количеством близких друзей настолько менее важны в структуре сети, чем те, у кого есть более отдаленные связи? Выходит, что разнообразие высоко ценится как в группе, так и в обществе в целом. Открытие заставило по-новому взглянуть на то, как следует оценивать важность людей в социальных сетях.

Перейти на страницу:

Похожие книги

Внутреннее устройство Microsoft Windows (гл. 1-4)
Внутреннее устройство Microsoft Windows (гл. 1-4)

Книга посвящена внутреннему устройству и алгоритмам работы основных компонентов операционной системы Microsoft Windows — Windows Server 2003, Windows XP и Windows 2000 — и файловой системы NTFS. Детально рассмотрены системные механизмы: диспетчеризация ловушек и прерываний, DPC, APC, LPC, RPC, синхронизация, системные рабочие потоки, глобальные флаги и др. Также описываются все этапы загрузки операционной системы и завершения ее работы. B четвертом издании книги больше внимания уделяется глубокому анализу и устранению проблем, из-за которых происходит крах операционной системы или из-за которых ее не удается загрузить. Кроме того, рассматриваются детали реализации поддержки аппаратных платформ AMD x64 и Intel IA64. Книга состоит из 14 глав, словаря терминов и предметного указателя. Книга предназначена системным администраторам, разработчикам серьезных приложений и всем, кто хочет понять, как устроена операционная система Windows.Названия всех команд, диалоговых окон и других интерфейсных элементов операционной системы приведены как на английском языке, так и на русском.Версия Fb2 редакции — 1.5.

Марк Руссинович , Дэвид Соломон

Зарубежная компьютерная, околокомпьютерная литература / Прочая компьютерная литература / Книги по IT
Ведьмак. История франшизы. От фэнтези до культовой игровой саги
Ведьмак. История франшизы. От фэнтези до культовой игровой саги

С момента выхода первой части на ПК серия игр «Ведьмак» стала настоящим международным явлением. По мнению многих игроков, CD Projekt RED дерзко потеснила более авторитетные студии вроде BioWare или Obsidian Entertainment. Да, «Ведьмак» совершил невозможное: эстетика, лор, саундтрек и отсылки к восточноевропейскому фольклору нашли большой отклик в сердцах даже западных игроков, а Геральт из Ривии приобрел невероятную популярность по всему миру.Эта книга – история триумфа CD Projekt и «Ведьмака», основанная на статьях, документах и интервью, некоторые из которых существуют только на польском языке, а часть и вовсе не публиковалась ранее.В формате PDF A4 сохранен издательский макет книги.

Рафаэль Люка

Хобби и ремесла / Зарубежная компьютерная, околокомпьютерная литература / Зарубежная прикладная литература / Дом и досуг