В 1973 году колледжу Беркли в Калифорнии вчинили иск в связи с дискриминацией по половому признаку. Все доказательства, казалось, были налицо, как и все основания для обвинения. Из мужчин, подавших заявления на поступление в этот престижный университет, было принято 44 процента, в то время как для женщин этот процент был равен 35. Такой перекос казался очень подозрительным и вроде бы свидетельствовал о сексизме руководства университета. Было возбуждено судебное дело для расследования и противодействия этой предвзятости. Однако расследование привело к весьма любопытным выводам: когда данные о поступлениях абитуриентов были проанализированы по факультетам, выяснилось, что “на большинстве факультетов имело место небольшое, но статистически значимое пристрастие в пользу женщин”.
Как такое возможно? Ведь два эти утверждения явно противоречат друг другу! Если женщин принимали с той же (или даже несколько большей) вероятностью, что и мужчин, то почему этот факт не нашел отражения в первоначальной статистике? Решение этого парадокса станет очевидным, если наблюдатель попробует глубже разобраться в стратифицированных данных о поступлениях. В этих данных скрывалась закономерность, которая не была очевидной в простой “процентной” статистике. Мужчины в среднем чаще подавали заявление на факультеты с меньшей конкуренцией за места, например, на факультеты инженерного профиля, куда поступали почти все желающие. Женщины наоборот стремились поступить, к примеру, на факультет английского языка, где конкурс был несоизмеримо выше даже среди наиболее подготовленных абитуриентов.
Проблема в данном случае была не в гендерной дискриминации, а в наличии
В настоящее время мы столкнулись с весьма любопытной и курьезной проблемой: хотя никогда прежде сбор данных не был столь же легким и простым, как сейчас, недопустимо упрощенная интерпретация доступной информации и трендов создает впечатление полного несоответствия реальности. Парадокс Симпсона часто дает знать о себе в сферах политики, социологии и медицины, и происходит это, когда отношения причины и следствия некорректно выводятся из частотных данных. Например, доля людей, умирающих в больницах, намного выше, чем доля людей, умирающих на почте, но было бы абсолютно недопустимо (и это, к счастью, абсолютно очевидно) делать из этого вывод о том, что почтовое отделение является более подходящим для лечения больных местом, чем больницы. Выведение причинно-следственных связей из статистических данных задача, как известно, очень трудная: единственная путающая переменная может привести неискушенного наблюдателя к полностью ложным выводам. Классический пример – это статистически достоверная связь числа смертей от утопления с ростом продаж мороженого. Эта связь абсолютно достоверна, но было бы очень странным допускать, что мороженое может привести к утоплению. Скрытая переменная здесь – теплая солнечная погода, которая увеличивает как продажи мороженого, так и число посетителей морских пляжей.