Когда демографические исследования показали связь между раком легких и курением, выдающийся статистик Рональд Фишер отметил, что это необязательно означает, что курение вызывает рак. Он привел несколько возможных причин возникновения такой связи явлений, в том числе вероятность того, что и рак легких, и предрасположенность к курению могут быть вызваны каким-то третьим общим фактором, например на генетическом уровне. Здесь мы имеем дело с классическим примером темных данных
Мы уже сталкивались с подобной ситуацией в начале книги. В главе 1 я говорил, что в раннем школьном возрасте рост детей соотносится с их лексическим запасом. Если вы проведете исследование выборки детей в возрасте от 5 до 10 лет, измеряя их рост и объем словаря, то обнаружите, что у тех, кто повыше, в среднем и словарный запас больше. Из этого напрашивается вывод: если давать детям больше новых слов, они лучше растут. Можно пойти еще дальше и провести второе исследование, измеряя рост детей в начале и в конце года, в течение которого они интенсивно осваивают новые слова. Результаты будут впечатляющими – рост детей увеличится.
Конечно, это шутка, и вы понимаете абсурдность подобных выводов. Хотя рост и словарный запас детей в указанном возрастном диапазоне, безусловно, взаимосвязаны, эта связь не носит причинно-следственного характера. Дело в том, что оба параметра зависят от третьей переменной – той, которую мы не планировали измерять в нашем исследовании, а именно от возраста детей. Возраст в этом примере является темными данными, его незнание может привести к ложным выводам.
Эта ситуация отличается от той, в которой отсутствуют значения некоторых атрибутов для отдельных объектов, и от той, когда для отдельных объектов отсутствуют значения
Иногда последствия влияния темных данных
Трагедия «Титаника» – затонувшего океанского лайнера – известна всем. Но мало кто знает, что тщательное изучение показателей выживаемости среди пассажиров и членов экипажа выявило нечто любопытное[46]
. Как видно из табл. 2, а, на судне было 908 членов экипажа, из которых выжило только 212 человек, то есть 23,3 %, а из 627 пассажиров третьего класса – тех, чьи каюты находились на нижних палубах корабля и кому было труднее выбраться, – выжил только 151 человек, то есть 24,1 %. Хотя показатели выживаемости в этих двух группах не сильно отличаются, тем не менее мы видим, что вероятность выживания пассажиров была несколько выше.Но давайте взглянем на показатели выживаемости мужчин и женщин по отдельности, приведенные в табл. 2, б.
В экипаже насчитывалось 885 мужчин, из которых 192 выжили, показатель выживаемости составил 21,7 %. Среди пассажиров третьего класса 462 были мужчинами, 75 выжили, показатель составил 16,2 %. У членов экипажа мужского пола более высокая выживаемость, чем у мужчин из третьего класса.
Из 23 членов экипажа женского пола выжили 20, что составляет 87,0 %. Среди пассажиров третьего класса было 165 женщин, 76 выжили, показатель выживаемости составил 46,1 %. Представительницы экипажа имеют более высокую выживаемость, чем пассажирки третьего класса.
Минуточку, что происходит? В расчете для мужчин и женщин по отдельности экипаж имеет более высокий показатель выживаемости, чем пассажиры третьего класса. Однако в целом его выживаемость ниже.
Здесь нет никакого трюка – цифры соответствуют действительности. Мы имеем дело с явлением, которое иногда так и называют