Читаем Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных полностью

Во-первых, это масса примеров, иллюстрирующих пути возникновения темных данных. Они показывают конкретные ситуации, на которые следует обращать внимание. Конечно, ситуации и контексты могут сильно отличаться от показанных в книге, но есть надежда, что приведенные здесь примеры послужат отправной точкой.

Во-вторых, это систематика DD-типов темных данных, представленная в главе 1 и используемая по ходу изложения. Чтобы вам было проще определять эти типы в реальных практических ситуациях, я кратко изложил их далее с примерами для каждого.

Эти DD-типы охватывают «видовое» разнообразие темных данных, так же, как оси координат очерчивают двумерную плоскость графика, но в отличие от осей координат мои

DD-типы не претендуют на полный охват пространства темных данных. Не стоит сомневаться в том, что существуют случаи недостающих или искаженных данных, которые не упомянуты в книге. К тому же постоянно появляются и будут появляться все новые типы темных данных со своими особенностями. Так или иначе, предложенная систематизация DD-типов дает своего рода контрольный список опасностей и общих проблем, на которые следует обращать внимание, работая с любым набором данных. И, конечно, всегда необходимо помнить, что обнаружение одного DD-типа не исключает присутствия других.

● DD-тип 1: данные, о которых мы знаем, что они отсутствуют

Это «известные неизвестные» Рамсфелда. Они возникают, когда мы знаем, что в данных есть пробелы, скрывающие значения, которые могли быть записаны. Примером могут служить отсутствующие значения, как во фрагменте маркетинговых данных в табл. 1, или отказ людей из опросного списка отвечать на вопросы частично или полностью. В последнем случае, возможно, все, что мы знаем о респондентах, это их идентификационные данные.

● DD-тип 2: данные, о которых мы не знаем, что они отсутствуют

Это «неизвестные неизвестные» Рамсфелда. Мы даже не знаем, что нам не хватает каких-то данных. Примером может служить веб-опрос, для которого нет списка возможных респондентов, поэтому мы в принципе не знаем, кто отказался его проходить. Катастрофа космического шаттла Challenger была следствием упущения такого рода, поскольку участники телеконференции не осознавали, что им не хватает некоторых данных.

● DD-тип 3: выборочные факты

Плохой набор критериев отбора для включения в выборку или ошибочное применение разумных критериев может привести к искажению выборки. В исследуемую группу могут войти более здоровые пациенты или люди, симпатизирующие той или иной компании. Это происходит, когда из большого числа случаев, осознанно или нет, выбираются «лучшие», чтобы избежать разочарования в будущем – возврат к среднему значению никто не отменял. Аналогично p-хакинг и неспособность учесть несколько гипотез означают, что научные результаты не смогут быть воспроизведены.

● DD-тип 4: самоотбор

Самоотбор является вариантом предыдущих данных DD-тип 3

. Он проявляется, когда людям дают право самостоятельно решать, что включать в базу данных, а что нет. Примерами самоотбора являются отсутствующие ответы в опросах, когда респонденты сами выбирают, отвечать им или нет, базы данных пациентов, где пациенты могут отказаться предоставлять свои данные, и в более общем плане – выбор услуг потребителями. Для всех этих примеров возможна ситуация, когда недостающие данные имеют какие-то системные отличия от данных имеющихся.

● DD-тип 5: неизвестный определяющий фактор

Иногда критически важный аспект системы совершенно незаметен. Это может привести к установлению ошибочных причинно-следственных связей, например между увеличением продаж мороженого и засыханием травы. Понятно, что в этом примере в причинно-следственной цепи отсутствуют данные о погоде, но нехватка ключевого звена не всегда бывает столь очевидна. Более проблематичный пример – парадокс Симпсона, в котором общий показатель может увеличиваться, в то время как все составляющие его показатели уменьшаются.

● DD-тип 6: данные, которые могли бы существовать

Контрфактуальные данные – это данные, которые мы бы смогли увидеть, если бы предприняли какие-то другие действия или наблюдали бы за происходящим при других условиях или в иных обстоятельствах. Примером может служить клиническое испытание, в котором все пациенты получают одинаковое лечение – возможно, потому что целью исследования является изучение сроков выздоровления, – и после того, как пациенты вылечены, уже невозможно посмотреть, как подействовало бы на них альтернативное лечение. Другим примером является возраст супруга того, кто даже не женат.

● DD-тип 7: данные, меняющиеся со временем

Перейти на страницу:

Похожие книги

Теория праздного класса
Теория праздного класса

Автор — крупный американский экономист и социолог является представителем критического, буржуазно-реформистского направления в американской политической экономии. Взгляды Веблена противоречивы и сочетают критику многих сторон капиталистического способа производства с мелкобуржуазным прожектерством и утопизмом. В рамках капитализма Веблен противопоставлял две группы: бизнесменов, занятых в основном спекулятивными операциями, и технических специалистов, без которых невозможно функционирование «индустриальной системы». Первую группу Веблен рассматривал как реакционную и вредную для общества и считал необходимым отстранить ее от материального производства. Веблен предлагал передать руководство хозяйством и всем обществом производственно-технической интеллигенции. Автор выступал с резкой критикой капитализма, финансовой олигархии, праздного класса. В русском переводе публикуется впервые.Рассчитана на научных работников, преподавателей общественных наук, специалистов в области буржуазных экономических теорий.

Торстейн Веблен

История / Прочая старинная литература / Финансы и бизнес / Древние книги / Экономика