В двадцать первом веке статистическая и вероятностная информация пропитала все поры общественной жизни – от маркетинга и медицины до результатов спортивных состязаний и прогнозов погоды. Статистика сохраняет свою привлекательность благодаря своей кажущейся интуитивности. Но этот флер простоты часто оказывается обманчивым, скрывающим тонкости, которые могут опровергнуть все наши выводы и расстроить наши планы. Непрозрачность статистики и широко распространенная математическая безграмотность позволяют многим несведущим людям неверно интерпретировать статистические тренды. Хуже того: эти же два обстоятельства предоставляют мошенникам и темным дельцам возможность манипулировать нами, используя статистику для подтверждения ложных аргументов. Подобные манипуляции вредят нам как сообществу, и циничное отношение к статистике вызывает у нас вполне объяснимую симпатию; недаром такой популярностью пользуется саркастическое замечание о трех степенях нечестности: “ложь, наглая ложь и статистика”, которое приписывают множеству великих остроумцев – от Оскара Уайльда до Марка Твена.
Хотя этот цинизм понятен и объясним, все же отношение к статистике как к троянскому коню, внутри которого скрывается ложь, равносильно выплескиванию вместе с водой ребенка; статистик Фредерик Мостеллер заметил по этому поводу: “Конечно, очень легко лгать с помощью статистики, но еще легче лгать без нее”. Это, несомненно, так – при правильном применении статистические инструменты трудно переоценить; статистика обнажает скрытые тренды, которые могут ускользать от внимания самых проницательных людей. Эта мощь статистических методов сделала их незаменимыми во всех сферах – от медицины до политики. Но если мы хотим получать пользу от статистики, то должны знать и о ловушках, в которые мы можем попасть при работе со статистическими данными. Особенно часто числовой информацией злоупотребляют в спорах. Нам стоит совершенствовать собственное понимание статистики, если мы не хотим пасть жертвами невежества или мошенничества.
Самое большое достижение статистики – это представление жизненных явлений в числовой, количественной форме (что, безусловно, является отличным подспорьем в нашем зыбком и неопределенном мире). Однако, к сожалению, в отсутствие адекватного контекста и понимания сути метода результаты статистических исследований могут дезориентировать и вводить в заблуждение. Для того чтобы проиллюстрировать любопытную природу статистики и вероятности, мы возьмем противоречащий интуиции пример, иллюстрирующий оба аспекта ошибок.
Представьте себе, что вы сдаете анализ на ВИЧ-инфекцию, который, как вам сказали, обладает точностью 99,99 процента. Результат анализа оказывается положительным. Какова вероятность того, что вы – носитель инфекции? Инстинкт подскажет большинству из нас, что мы почти наверняка больны, но это неверно. Правильный ответ: шанс, что у вас СПИД, равен в большинстве случаев 50 процентам. Если вас смущает этот вывод, то утешьтесь тем, что вы не одиноки. Большинство людей, в том числе профессиональные медики, приходит от такого странного утверждения в замешательство.
Частотное дерево, демонстрирующее надежность анализов на ВИЧ для (а) когорты низкого риска и (б) для когорты высокого риска.
Этот любопытный результат находит объяснение в теореме Байеса – математическом обосновании комбинации условных вероятностей. Теорема показывает, как ветвятся вероятности, и, в частности, сообщает нам, что вероятность заболевания ВИЧ при получении положительного результата анализа зависит не только от этого результата, но и от того, насколько в целом велика вероятность заболеть ВИЧ. Несмотря на то, что сам анализ почти совершенен, его точность зависит от другого условия, а именно – от априорной вероятности того, что у пациента вообще есть вирус. Мы не станем углубляться в формальное доказательство теоремы Байеса, так как это выходит за рамки настоящей книги и лишь напугает тех, кто незнаком с математическими символами. Однако логику теоремы понять легко, как легко и ее проиллюстрировать, несмотря на то, что истина прячется за парадоксально выглядящими статистическими выкладками.
Вернемся, однако, к нашему примеру. Каким образом тест с чувствительностью 99,99 процента может показать, что у человека с положительным результатом вероятность заболевания равна всего 50 процентам? Для человека из группы низкого риска вероятность заболеть СПИДом равна приблизительно 1:10 000. Теперь представьте себе, что 10 000 человек из этой группы низкого риска приходят сдавать анализ на ВИЧ. Один из них носитель ВИЧ, и результат его анализа практически наверняка окажется положительным. Но среди оставшихся, в связи с малой неточностью теста, один результат окажется ложноположительным. Таким образом, мы получим два положительных результата, лишь один из которых будет истинно положительным, – а это означает, что у пациента с положительным результатом вероятность заболевания равна именно 50 процентам.