Читаем Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных полностью

Когда демографические исследования показали связь между раком легких и курением, выдающийся статистик Рональд Фишер отметил, что это необязательно означает, что курение вызывает рак. Он привел несколько возможных причин возникновения такой связи явлений, в том числе вероятность того, что и рак легких, и предрасположенность к курению могут быть вызваны каким-то третьим общим фактором, например на генетическом уровне. Здесь мы имеем дело с классическим примером темных данных DD-тип 5: неизвестный определяющий фактор – некоторой неизмеренной переменной, которая служит причиной и того и другого и даже приводит к корреляции между ними, при этом сами по себе изучаемые явления непосредственно не влияют друг на друга. Этот пример показывает, насколько сложно бывает обнаружить темные данные.

Мы уже сталкивались с подобной ситуацией в начале книги. В главе 1 я говорил, что в раннем школьном возрасте рост детей соотносится с их лексическим запасом. Если вы проведете исследование выборки детей в возрасте от 5 до 10 лет, измеряя их рост и объем словаря, то обнаружите, что у тех, кто повыше, в среднем и словарный запас больше. Из этого напрашивается вывод: если давать детям больше новых слов, они лучше растут. Можно пойти еще дальше и провести второе исследование, измеряя рост детей в начале и в конце года, в течение которого они интенсивно осваивают новые слова. Результаты будут впечатляющими – рост детей увеличится.

Конечно, это шутка, и вы понимаете абсурдность подобных выводов. Хотя рост и словарный запас детей в указанном возрастном диапазоне, безусловно, взаимосвязаны, эта связь не носит причинно-следственного характера. Дело в том, что оба параметра зависят от третьей переменной – той, которую мы не планировали измерять в нашем исследовании, а именно от возраста детей. Возраст в этом примере является темными данными, его незнание может привести к ложным выводам.

Эта ситуация отличается от той, в которой отсутствуют значения некоторых атрибутов для отдельных объектов, и от той, когда для отдельных объектов отсутствуют значения всех атрибутов. Здесь значения для определенного атрибута (или атрибутов) отсутствуют для всех объектов в базе данных. Все записи для такой переменной будут обозначены пробелами или словом «неизвестно», если вообще эта переменная была включена в исследование. Например, в предыдущем примере мы могли просто забыть спросить о том, сколько лет респондентам, поэтому у нас нет информации о точном возрасте ни одного из них. Или, возможно, мы не подумали о том, что возраст будет иметь значение, поэтому нам не пришло в голову задавать соответствующий вопрос. И для того и для другого имеются естественные причины: если исследование будет перегружено вопросами, это отрицательно скажется на уровне отклика, поэтому отбирать их приходится тщательно.

Парадокс!

Иногда последствия влияния темных данных DD-тип 5: неизвестный определяющий фактор могут буквально ставить в тупик.

Трагедия «Титаника» – затонувшего океанского лайнера – известна всем. Но мало кто знает, что тщательное изучение показателей выживаемости среди пассажиров и членов экипажа выявило нечто любопытное[46]. Как видно из табл. 2, а, на судне было 908 членов экипажа, из которых выжило только 212 человек, то есть 23,3 %, а из 627 пассажиров третьего класса – тех, чьи каюты находились на нижних палубах корабля и кому было труднее выбраться, – выжил только 151 человек, то есть 24,1 %. Хотя показатели выживаемости в этих двух группах не сильно отличаются, тем не менее мы видим, что вероятность выживания пассажиров была несколько выше.

Но давайте взглянем на показатели выживаемости мужчин и женщин по отдельности, приведенные в табл. 2, б.

В экипаже насчитывалось 885 мужчин, из которых 192 выжили, показатель выживаемости составил 21,7 %. Среди пассажиров третьего класса 462 были мужчинами, 75 выжили, показатель составил 16,2 %. У членов экипажа мужского пола более высокая выживаемость, чем у мужчин из третьего класса.

Из 23 членов экипажа женского пола выжили 20, что составляет 87,0 %. Среди пассажиров третьего класса было 165 женщин, 76 выжили, показатель выживаемости составил 46,1 %. Представительницы экипажа имеют более высокую выживаемость, чем пассажирки третьего класса.



Минуточку, что происходит? В расчете для мужчин и женщин по отдельности экипаж имеет более высокий показатель выживаемости, чем пассажиры третьего класса. Однако в целом его выживаемость ниже.

Здесь нет никакого трюка – цифры соответствуют действительности. Мы имеем дело с явлением, которое иногда так и называют парадоксом Симпсона, в честь Эдварда Симпсона, описавшего его в статье в 1951 г. (хотя это явление уже было описано как минимум на полвека раньше).

Перейти на страницу:

Похожие книги

Теория праздного класса
Теория праздного класса

Автор — крупный американский экономист и социолог является представителем критического, буржуазно-реформистского направления в американской политической экономии. Взгляды Веблена противоречивы и сочетают критику многих сторон капиталистического способа производства с мелкобуржуазным прожектерством и утопизмом. В рамках капитализма Веблен противопоставлял две группы: бизнесменов, занятых в основном спекулятивными операциями, и технических специалистов, без которых невозможно функционирование «индустриальной системы». Первую группу Веблен рассматривал как реакционную и вредную для общества и считал необходимым отстранить ее от материального производства. Веблен предлагал передать руководство хозяйством и всем обществом производственно-технической интеллигенции. Автор выступал с резкой критикой капитализма, финансовой олигархии, праздного класса. В русском переводе публикуется впервые.Рассчитана на научных работников, преподавателей общественных наук, специалистов в области буржуазных экономических теорий.

Торстейн Веблен

История / Прочая старинная литература / Финансы и бизнес / Древние книги / Экономика