Читаем Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных полностью

Покупатель подходит к кассе супермаркета, выкладывает на ленту выбранные товары, лазер сканирует их штрихкоды, и каждый раз кассовый аппарат издает звуковой сигнал, сообщая, что суммирует цены. В результате этой процедуры покупатель получает чек и расплачивается. Однако история его покупки на этом не заканчивается. Данные о купленных товарах и их стоимости отправляются в базу данных. Позже статистики и аналитики будут изучать их, создавая картину поведения покупателей на основе того, что они купили, какие из товаров были куплены вместе и, конечно, какие клиенты покупали эти товары. Казалось бы, здесь просто нельзя ничего пропустить. Данные о транзакциях собираются во всех случаях, кроме отключения электроэнергии, сбоя кассового аппарата или мошенничества.

Вроде бы собираются все данные. Иначе говоря, в базу попадают данные не по некоторым транзакциям или некоторым

купленным товарам, а по всем транзакциям, совершенным всеми покупателями, и по всем
товарам в конкретном супермаркете. Такие данные еще называют исчерпывающими.

Однако так ли это? Ведь собранные данные описывают то, что произошло на прошлой неделе или в прошлом месяце. Конечно, польза от них несомненна, но если мы управляем супермаркетом, то, вероятно, нам будет интересно, что произойдет завтра, на следующей неделе или через месяц. Мы бы хотели знать, кто, что, когда и сколько купит в будущем. Какие товары могут закончиться на полках, если не заказать их впрок? Как могут измениться предпочтения людей в отношении брендов? Другими словами, нам нужны данные, которые не собираются. Это связано с самой природой времени, и здесь фигурируют темные данные DD-тип 7: данные, меняющиеся со временем

.

Помимо этого, интересно узнать, как вели бы себя люди, если бы мы, скажем, более плотно заставили товарами полки, или разместили их как-то иначе, или изменили часы работы супермаркета. Такие данные называются контрфактуальными, поскольку они противоречат реальным фактам – они о том, что случилось бы, если бы произошло нечто, чего на самом деле не происходило. Контрфактуальные данные классифицируются как DD-тип 6: данные, которые могли бы существовать

.

Излишне говорить, что контрфактуальные данные интересуют не только менеджеров супермаркетов. Все мы принимаем те или иные лекарства и при этом, разумеется, доверяем врачу, который их прописал, предполагая, что лекарства прошли тестирование и были признаны эффективными. Но как бы вы себя чувствовали, если бы вдруг обнаружили, что ваши лекарства не были проверены? И не было собрано данных о том, помогают ли они вообще? Вдруг они делают только хуже? А если они даже и были протестированы и рекомендованы, то ускоряют ли эти лекарства на самом деле процесс выздоровления? А может быть, их не сравнивали с другими препаратами, чтобы оценить эффективность? В истории со слоновьим порошком такое сравнение принятых мер с бездействием быстро показывает, что для отпугивания слонов отсутствие действия так же эффективно, как и применение порошка. (А это, в свою очередь, может привести к следующему, не менее полезному выводу, что никаких слонов, которых надо отпугивать, просто нет.)

Возвращаясь к понятию «исчерпывающие данные», стоит отметить, что часто контекст делает явно бессмысленной саму возможность иметь «все» данные. Возьмите, например, свой вес. Узнать его легко – достаточно встать на весы. Однако уже не так легко будет повторно получить те же данные. Даже если сразу же встать на весы снова, результат, скорее всего, будет немного другим, особенно если попытаться измерить его с точностью до грамма. Никакие физические измерения нельзя считать абсолютно точными в результате погрешностей или случайных колебаний, возникающих вследствие очень незначительных изменений условий (DD-тип 10: ошибки измерения и неопределенность). Для решения этой проблемы ученые, измеряющие параметры какого-либо явления – скажем, скорость света или заряд электрона, проводят серию измерений, а затем усредняют значения. Можно сделать тысячи и миллионы измерений, но очевидно, что невозможно сделать «все» измерения. В этом контексте просто не существует понятия «все», а значит, не существует и исчерпывающих данных.

Следующий тип темных данных хорошо иллюстрируется примером знаменитых лондонских автобусов. Если вам доводилось на них ездить, то, скорее всего, вы помните, что они, как правило, набиты битком. И все же данные показывают, что средняя заполняемость одного автобуса составляет всего 17 человек. Но чем можно объяснить это кажущееся противоречие? Кто-то манипулирует цифрами?

Перейти на страницу:

Похожие книги

Стив Джобс. Уроки лидерства
Стив Джобс. Уроки лидерства

Эта книга – редкая возможность увидеть Стива Джобса таким, каким его видели лишь его самые близкие сотрудники, и разгадать загадку этого легендарного человека. Это возможность понять и освоить оригинальный стиль лидерства Джобса, благодаря которому Apple стала одной из величайших компаний и смогла выпускать продукты, изменившие нашу жизнь. Автор книги, Джей Эллиот, бывший старший вице-президент компании Apple, долгое время работал бок о бок со Стивом Джобсом и сформулировал главные уроки «iЛидерства», которые помогут совершить прорыв компании любого размера и из любой отрасли. Интуитивный и творческий подход Джобса, о котором рассказывается в этой книге, позволит вам преобразить свой бизнес и свою жизнь.Для широкого круга читателей – для всех, кто хочет воспользоваться уроками выдающегося бизнес-лидера.

Виктория Шилкина , Вильям Л Саймон , Вильям Л. Саймон , Джей Эллиот

Деловая литература / Биографии и Мемуары / Публицистика / Прочая компьютерная литература / Управление, подбор персонала / Документальное / Финансы и бизнес / Книги по IT
Хакеры: Герои компьютерной революции
Хакеры: Герои компьютерной революции

Как-то незаметно получилось, что за последние годы достаточно большое количество значений слова «хакер»: «компьютерный гений — озорник — любитель — специалист — исследователь» постепенно сжалось до «компьютерного хулигана — преступника». Mожно только «порадоваться» за труды журналистов околокомпьютерных и не очень изданий во всем мире, а также голливудских режиссеров, прививших умам неискушенных сограждан именно такое видение мира.Но, к счастью, так было не всегда. Эта книга позволяет вернуться к тем дням, когда все это еще только начиналось. К тем чистым и немного наивным ощущениям первоткрывателей, которым в руки попали удивительные игрушки, гигантские по размерам и стоимости...Как начинал Билл Гейтс? Как зарождался Apple? Замечательная коллекция персонажей шумно исследующих киберпространство, в котором до них еще никто не бывал, будет интересна не только специалистам но и простому читателю.

Стивен Леви

Зарубежная компьютерная, околокомпьютерная литература / Прочая компьютерная литература / Книги по IT