Рис. 5.1. Зависимость не равняется причинности. https://xkcd.com/552/
Те, кто держит дома собак, реже других страдают от разных видов аллергии. Но почему так происходит? Потому, что из-за постоянного контакта с аллергенами организмы хозяев собак начинают слабее на них реагировать, или потому, что аллергики никогда не станут заводить собак?
К сожалению, не всегда получается объяснить существование зависимостей. Переменная A может стать причиной возникновения переменной B, но также и B может породить A, или они обе появятся из-за переменной C или даже целого набора переменных. Именно поэтому неразборчивым или ленивым гораздо легче прийти к выводам, которые больше всего их устраивают. Кроме того, важно помнить и о том, что статистика показывает взаимосвязи, которые на первый взгляд кажутся вполне закономерными, но на самом деле появляются случайно (их называют ложными зависимостями). Если у вас достаточно данных, вы почти всегда сможете выявить среди них статистические зависимости, которые в действительности не имеют никакого смысла. Об этом даже написана книга, в которой приводятся примеры зависимостей вроде той, что указана на рис. 5.2{43}
.Никогда не забывайте, что делать выводы на основании статистики без понимания причинно-следственных связей крайне опасно (особенно когда речь идет о медицине и лекарственных средствах). Это доказывают последние открытия в области искусственного интеллекта и машинного обучения, которые связаны с опасными выводами, сделанными на основе ложных зависимостей{44}
.
Упражнения
1. В Средние века люди верили, что вши полезны для здоровья, потому что на больных их находили очень редко. Считалось, что если с человека сбегут вши, он обязательно заболеет. Зная о том, что вши очень чувствительны к температуре тела хозяина, какое объяснение этого феномена можно предложить?
2. Дети, которые спят с включенным светом, во взрослом возрасте гораздо чаще страдают от близорукости. Связана ли близорукость со сном в освещенном помещении?
3. Как выяснилось, высокие продажи мороженого связаны с увеличением числа случаев утопления. Надо ли требовать от властей города запретить продажу мороженого?
Рис. 5.2. Ложная зависимость. https://www.tylervigen.com/spurious-correlations
СТАТИСТИЧЕСКАЯ ЗНАЧИМОСТЬ
Где используется:
статистика.Суть вкратце:
анализ выборки из большого набора данных может привести к правильным выводам, а может и сбить с толку. Если не анализировать каждую частичку информации (это было бы непрактично), то надо быть готовыми к тому, что выборка окажется нерепрезентативной, и тогда любые выводы из нашего анализа будут ошибочными.Почему это важно:
статистика стала неотъемлемой частью повседневного быта. Вот некоторые сферы ее применения: личная жизнь (вопросы здоровья и питания), профессиональная деятельность (здравоохранение, финансы, производство, фундаментальная наука и профессиональный спорт), государственное управление (противоэпидемические мероприятия во время пандемии, например). Статистика выявляет истинные связи между явлениями, но статистическими данными легко манипулировать, чтобы привести кого-либо к заведомо ложным выводам. Следовательно, надо уметь разбираться, когда статистика используется правильно (а значит, имеет значение и вес), а когда – нет.Пример из дисциплины:
на рыбной ферме содержится 100 000 лососей. Работник вылавливает из воды 200 рыбешек, чтобы их взвесить. Затем другие сотрудники фермы вычисляют средний вес этих 200 рыб и пытаются понять, можно ли считать данные об этой группе рыб репрезентативными для всех остальных лососей на ферме (это называют определением доверительного интервала).Пример из жизни:
клинические исследования препарата проводятся на двух группах по 10 человек в каждой. Первой группе дают лекарство, а второй – плацебо. В первой группе от симптомов болезни избавились семь человек, а во второй – пять, но эта разница слишком мала и не может считаться статистически значимой – вероятно, она вообще обусловлена случайными изменениями. Поэтому Управление по санитарному надзору за качеством пищевых продуктов и медикаментов не выдало лицензию на производство этого препарата.Комментарий:
когда речь идет о больших наборах данных, самым понятным статистическим показателем считают среднее значение набора. Размах, или дисперсия, данных (показывает разброс между значениями относительно среднего значения величины) – это уже концепция, которую понять чуть-чуть труднее, но все еще не слишком сложно. Оба этих вида сводной статистики достаточно полезны в быту. Например, с их помощью можно предсказать, что реку со средней глубиной 1,5 м и размахом глубины от 1 до 2 м переходить гораздо безопаснее, чем реку с такой же средней глубиной и размахом глубин от 0,5 до 2,5 м. Оба этих показателя – среднее значение и размах – считаются основами понятия «статистическая значимость».