В главе 6
мы показали, что алгоритм может выиграть конкурс прогнозов с очень незначительным преимуществом. Например, при прогнозе выживания для тестового набора данных о «Титанике» простое дерево классификации дало наилучший показатель Бриера (среднеквадратичная ошибка прогноза) 0,139, что лишь чуть-чуть отличается от величины 0,142 у усредненной нейронной сети (см. табл. 6.4). Вполне резонно спросить, действительно ли эта крохотная разница –0,003 статистически значима или все можно объяснить случайными отклонениями?Это несложно проверить,
Исследователи тратят свои жизни на тщательное изучение результатов работы компьютерных программ наподобие представленных в табл. 10.5 в надежде увидеть мерцающие звезды, указывающие на существенный результат, который они могут получить и затем включить в следующую научную статью. Но, как мы видим, такой навязчивый поиск статистической значимости довольно легко приводит к заблуждениям.
Стандартные пороговые значения для «значимости» P < 0,05 и P < 0,01 Рональд Фишер выбрал для своих таблиц весьма произвольно, поскольку в те времена вычислять точные P-значения без механических и электрических калькуляторов было невозможно. Но что произойдет, если провести много проверок на значимость, каждый раз наблюдая, не превышает ли наше P-значение величину 0,05?
Предположим, что лекарство на самом деле не помогает, тогда нулевая гипотеза истинна. Проведя одно клиническое испытание, мы назовем результат статистически значимым, если P-значение меньше 0,05. Поскольку препарат неэффективен, такая вероятность составляет 0,05, или 5 %, что, собственно, и есть определением P-значения. Это будет считаться ложноположительным
результатом, так как мы (неправильно) решим, что лекарство помогает. Если мы проведем два испытания и посмотрим на результаты, то вероятность получить хотя бы один значимый, то есть ложноположительный, результат близка к 0,10, или 10 %[195]. При увеличении количества испытаний шансы на получение хотя бы одного ложноположительного результата быстро растут: если провести десять испытаний бесполезных препаратов, вероятность получить хотя бы один значимый результат при P < 0,05 достигает 40 %. Такая ситуация известна как проблема множественной проверки гипотез, она возникает всякий раз, когда проверок выполняется много, а сообщается о самом значимом результате.Еще одна проблема возникает, когда исследователи делят данные на много подклассов, проверяют гипотезу на каждом из них, а затем рассматривают самые значимые результаты. Классический пример – эксперимент, проведенный авторитетными исследователями в 2009 году, в котором испытуемому показывали серию фотографий людей с различными эмоциями на лице и проводили сканирование мозга (функциональную магнитно-резонансную томографию, фМРТ), чтобы посмотреть, какая его зона даст значимый отклик, приняв P < 0,001.
Изюминка заключалась в том, что «испытуемым» был двухкилограммовый атлантический лосось, который «не был жив на момент сканирования». Из 8064 участков мозга этой крупной мертвой рыбины 16 продемонстрировали статистически значимый отклик на фотографии. Ученые не стали утверждать, что мертвый лосось обладает уникальными умениями, а сделали верный вывод[196]
, что проблема в многократном тестировании – более 8 тысяч проверок обязательно приведут к ложноположительному результату[197]. Даже при строгом критерии P < 0,001 мы бы ожидали 8 значимых результатов по чистой случайности.Один из способов обойти эту проблему – потребовать очень маленькое P-значение для уровня значимости, и здесь проще всего применить поправку Бонферрони
[198], то есть использовать пороговое значение 0,05/