Предположим, исследовательница проводит какие-то наблюдения и преобразует результаты наблюдений в данные, отражающие эффект, который ее интересует, например разницу симптомов в группе, которой давали лекарство, и в группе, получавшей плацебо, или разницу в речевых навыках мальчиков и девочек, или повышение экзаменационных оценок у студентов, посещавших дополнительные занятия. Если это число равно нулю, значит, эффекта нет; если оно больше нуля — возможно, пора кричать «эврика». Но из людей выходят плохие подопытные кролики, в данных полно шума, и, если среднее оказывается выше нуля, это может означать как какое-то реальное изменение, так и ошибку отбора, чистую случайность. Давайте снова поднимемся на уровень восприятия бога и начертим кривые распределения результатов, которые исследовательница получит, если в реальности ничего не происходит (это называется «нулевая гипотеза»), и результатов, которые она получит, если что-то — эффект определенной величины — все же происходит. Эти кривые накладываются друг на друга — вот что делает науку таким непростым занятием. Картина должна показаться вам знакомой:
Нулевая гипотеза — это шум, альтернативная гипотеза — сигнал. Величина эффекта — что-то вроде чувствительности: она определяет, насколько легко отделить сигнал от шума. Прежде чем открывать шампанское, исследовательница должна применить к полученным результатам некий критерий, который еще называют критической величиной. Не преодолев критической величины, она не может опровергнуть нулевую гипотезу и примется заливать горе; если же она ее преодолела, значит, нулевая гипотеза опровергнута и можно праздновать, объявив эффект «статистически значимым».
Но где поместить эту критическую величину? Исследовательница вынуждена искать баланс между двумя типами ошибок. Если она опровергнет верную нулевую гипотезу — это ложная тревога, или, в терминах теории статистических решений, ошибка первого рода. Если же ей не удастся опровергнуть ложную нулевую гипотезу — это промах, или ошибка второго рода. Ни то ни другое не сулит ничего хорошего. Ошибка первого рода привносит ложные факты в совокупность научного знания. Ошибка второго рода — это перевод денег и усилий. Она случается, когда «мощность метода» (доля верных попаданий, или 1 минус доля ошибок второго рода) недостаточна для обнаружения эффекта.
Давным-давно — кем и когда, точно неизвестно — было решено, что ошибки первого рода («обнаружение» эффекта там, где его нет) наносят особенно сильный вред научному знанию, которое может выдержать только определенную их долю — если быть точным, не более 5 % от всех исследований, в которых нулевая гипотеза была верна. Отсюда и возникла общепринятая практика: ученые должны устанавливать такую критическую величину, которая гарантирует, что вероятность опровержения нулевой гипотезы в случаях, когда она верна, составляет менее 5 %; вот оно, вожделенное «p < 0,05». (Может, кто-то и задумывался о необходимости учитывать и издержки ошибок второго рода, как это принято в теории обнаружения сигнала, но по некой туманной исторической причине этого так и не случилось.)
Вот что такое «статистическая значимость» — это способ ограничить долю ложных заявлений об открытиях произвольно выбранным верхним пределом. Предположим, вы получили статистически значимый результат при p < 0,05. Значит ли это, что вы вправе сделать перечисленные ниже выводы?
• Вероятность, что нулевая гипотеза верна, составляет менее 0,05.
• Вероятность, что эффект реален, превышает 0,95.
• Если вы опровергли нулевую гипотезу, шанс, что вы ошиблись, составляет менее 0,05.
• Если вы попытаетесь воспроизвести исследование, шанс, что вам это удастся, составляет более 0,95.
Девять из десяти профессоров психологии, включая 80 % тех, кто преподает статистику, так и думают[303]
. Но они ошибаются, ошибаются и еще раз ошибаются! Если вы внимательно следили за рассуждениями в этой главе и в главе 5, вы понимаете почему. «Статистическая значимость» — это байесовское правдоподобие, вероятность получения определенных данных при условии, если гипотеза верна (в нашем случае нулевая гипотеза)[304]. Однако каждое из перечисленных выше утверждений представляет собой байесовскую апостериорную вероятность — вероятность, что гипотеза верна при условии получения определенных данных. Вот что нам нужно, вот зачем мы взялись за исследование — но проверка на статистическую значимость показывает совсем не это! Если вы помните, почему у Ирвина нет заболевания печени, почему дома не так уж опасно и почему папа римский не инопланетянин, вы знаете, что эти две условные вероятности нельзя менять местами. Наша исследовательница не может использовать тест на статистическую значимость в качестве оценки истинности или ложности нулевой гипотезы, если она не учтет априорную вероятность — ее наилучшее предположение о вероятности, что нулевая гипотеза истинна, сформулированное до эксперимента. Но в математике проверок на статистическую значимость эту самую априорную вероятность днем с огнем не сыщешь!