И все это при условии, что ученые, о которых идет речь, ведут справедливую игру. Но так бывает не всегда. Помните проблему пространства для маневра, из-за которой попали в ловушку искатели библейских кодов? Ученые, которые вынуждены публиковать свои работы, чтобы не разрушить научной карьеры, могут не устоять перед соблазном того же пространства для маневра. Если вы проводите собственный статистический анализ и получаете p
-значение 0,06, вы должны сделать вывод, что ваши результаты статистически незначимы. Однако, чтобы отправить результаты многих лет работы в архив, требуется высокая психологическая устойчивость. В конце концов, разве данные об этом конкретном участнике экспериментального исследования не выглядят несколько подозрительными? Если это резко отклоняющееся значение, может быть, стоит попытаться удалить эту строку из таблицы данных. Был ли учтен возраст? Были ли учтены погодные условия? Был ли учтен возраст и погодные условия? Если только вы позволите себе слегка подправить и завуалировать результаты статистической проверки полученных данных, во многих случаях вам удастся снизить p-значение с 0,06 до 0,04. Профессор Пенсильванского университета Ури Саймонсон, ведущий ученый в области изучения проблемы воспроизводимости результатов исследований, называет эту практику «p-хакингом»{127}[142]. Хакинг p-значения бывает, как правило, не таким грубым, каким я его здесь представил, и редко происходит по злому умыслу. P-хакеры искренне верят в истинность своих гипотез (как в случае искателей библейских кодов), а когда вы верите во что-то, легко обосновать, что анализ, который дает пригодное для публикации p-значение, – это именно то, что вам и следовало сделать с самого начала.Однако все знают, что на самом деле это неправильно. Когда ученым кажется, что их никто не слышит, они говорят о своей практике: «Пытаем данные, пока они не сознаются». Следовательно, достоверность результатов соответствует тому, что можно ожидать от признаний, полученных силой.
Оценить масштаб проблемы p
-хакинга не так просто: невозможно проанализировать работы, которые были отправлены в архив или вообще не были написаны, подобно тому как нельзя изучить самолеты, сбитые во время воздушых боев, чтобы найти места пробоин. Но вы, так же как Абрахам Вальд, можете сделать ряд логических выводов по поводу данных, которые не можете получить напрямую.Вспомните о «Международном журнале гаруспиции». Что вы увидели бы, если могли бы изучить все когда-либо опубликованные работы и записать обнаруженные там p
-значения? Не забывайте о том, что в данном случае нулевая гипотеза неизменно истинна, поскольку гаруспиция не работает. Следовательно, 5 % экспериментов дадут p-значение 0,05 или меньше, 4 % получат p-значение не более 0,04, 3 % – не более 0,03 и так далее. Эту же идею можно сформулировать так: количество экспериментов, обеспечивающих p-значение от 0,04 до 0,05, должно быть примерно таким же, что и в случае p-значения от 0,03 до 0,04, от 0,02 до 0,03 и так далее. Если отобразить все p-значения, упомянутые во всех работах, которые вы изучили, получится такой плоский график.
Но что если вы посмотрите реальный журнал? Хотелось бы надеяться, что многие из тех феноменов, информацию о которых вы ищете, действительно существуют; это повысит вероятность того, что эксперименты получат хорошее (а значит, низкое) p
-значение. В таком случае график p-значений должен быть нисходящим.
Однако это не совсем то, что происходит в реальной жизни. В самых разных областях науки, от политологии до экономики, психологии и социологии, детективы от статистики обнаружили заметный восходящий наклон графика при приближении p
-значений к порогу 0,05{128}.
Именно этот наклон отображает факт p
-хакинга. Такой график говорит о том, что результаты многих экспериментов, попадающие на ту сторону границы p = 0,05, на которой находятся не подлежащие публикации работы, посредством обмана, незначительных изменений, поправок или элементарного искажения были перенесены на более благоприятную сторону графика. Это хорошо для ученых, но плохо для науки.