Читаем Лягушка в кипятке и еще 300 популярных инструментов мышления, которые сделают вас умнее полностью

Последняя мера, к которой часто прибегают, чтобы выявить статистическую значимость результата, называется p-значением, официальное определение которого – вероятность получения результата, равного или превышающего наблюдаемый, если предположить, что нулевая гипотеза верна. По сути своей, если p-значение меньше выбранного уровня ложноположительного результата (5 %), можно сказать, что результат обладает статистической значимостью. P-значения часто используются в отчетах об исследованиях, чтобы сообщить о такой значимости.

Например, p-значение, равное 0,01, значит, что разница, равная или превышающая наблюдаемую, будет иметь место только в 1 % случаев, если приложение окажется неэффективным. Это значение соответствует значению на крайнем хвосте левой кривой нормального распределения и ближе к центру правой кривой нормального распределения. Такое расположение означает, что результат больше соответствует альтернативной гипотезе: данное приложение имеет эффект 15 %.

Теперь обратите внимание, как две кривые накладываются друг на друга, показывая, что некоторая разница между двумя группами согласуется с обеими гипотезами (одновременно под обоими колоколами кривых). Эти серые области показывают, где могут возникнуть два типа ошибки. Светло-серая область – это ложноположительный, а темно-серая – ложноотрицательный результат.

Ложноположительный результат получится, если между двумя группами обнаружится большая разница (как там, где p-значение равно 0,01), но на самом деле приложение не действует. Это произойдет, если кто-то из группы без приложения случайно долго не мог уснуть, а кто-то из группы с приложением случайным образом легко уснул.


Статистическая значимость


И наоборот, ложноотрицательный результат получится, если приложение на самом деле помогает людям уснуть быстрее, но наблюдаемая разница слишком мала, чтобы обладать статистической значимостью. Если исследование имеет типичную мощность 80 %, этот ложноотрицательный сценарий будет происходить в 20 % случаев.

Предположим, что размер выборки остается фиксированным. Снижение вероятности ложноположительной ошибки эквивалентно переносу пунктирной линии вправо с сокращением светло-серой области. Но при этом шанс сделать ложноотрицательную ошибку возрастает (сравните верхний рисунок с оригиналом).

Если хотите уменьшить процент одной из ошибок, не увеличивая другую, придется увеличить размер выборки. При этом каждая из кривых нормального распределения станет уже (сравните нижний рисунок также с оригиналом).


Статистическая значимость


Увеличение размера выборки и сужение кривых нормального распределения уменьшают наложение двух кривых, в процессе сокращая общую серую область. Конечно, это привлекательно, потому что уменьшается вероятность совершить ошибку. Но, как мы отметили в начале раздела, есть множество причин, по которым увеличение размера выборки может оказаться нецелесообразным (время, деньги, риск для участников и т. д.).

В таблице показано, как изменяется размер выборки для разных пределов уровня ошибки в исследовании приложения для сна. Вы увидите, что, если процент ошибок понизится, размер выборки придется увеличить.

Все значения размеров выборки в следующей таблице зависят от выбранной альтернативной гипотезы с разницей в 15 %. Размеры выборки увеличивались бы и дальше, если бы разработчики хотели обнаружить еще меньшую разницу, и уменьшились бы, если бы хотели найти только большую разницу.


Размер выборки изменяется с мощностью и значимостью


Исследователям часто приходится брать выборку поменьше, чтобы сэкономить время и деньги, из-за чего выбор большей разницы для альтернативной гипотезы становится привлекательным. Но такой выбор сопряжен с высоким риском. Например, разработчики могли бы сократить размер выборки всего до 62 человек (вместо 268), если бы заменили разницу в альтернативной гипотезе на 30 % между двумя группами (а не 15 %).

Но если в действительности приложение дает разницу всего 15 %, с этим меньшим размером выборки они смогут обнаружить такую меньшую разницу только в 32 % случаев! Это меньше, чем изначальные 80 %, и значит, что в 2/3 случаев будет получен ложноотрицательный результат, который не покажет разницу в 15 %. В идеале любой эксперимент нужно разрабатывать так, чтобы обнаруживать малейшую существенную разницу.

Последнее замечание о p-значениях и статистической значимости: большинство статистиков предостерегают, что нельзя чрезмерно полагаться на p-значения при интерпретации результатов исследования. Неспособность найти значимый результат (достаточно малое p-значение) – это не то же самое, что уверенность в отсутствии эффекта.

Отсутствие доказательств не является доказательством отсутствия.

Точно так же, даже несмотря на то, что исследование могло достичь лишь низкого p-значения, этот результат может быть неприменим, что мы рассмотрим в заключительном разделе.

Перейти на страницу:

Похожие книги

Психология убеждения. 50 доказанных способов быть убедительным
Психология убеждения. 50 доказанных способов быть убедительным

Авторы рассматривают психологическую основу успешных стратегий социального влияния, используя при этом только научные доказательства. Именно научные методы, позволяют, изменив немногое в нашем общении, получить поразительные результаты в области убеждения.Прочитав эту книгу, вы сможете лучше понять процессы, лежащие в основе общения и взаимодействия. Вы увидите, как можно изменять поведение людей или их отношение к чему-либо, научитесь честно, этично и правильно выстраивать общение с противоположной стороной и партнерами.Для всех, кому важно быть убедительным: на работе и дома, с близкими и незнакомыми людьми, при устном обращении и на письме.

Ноа Гольдштейн , Роберт Бено Чалдини , Роберт Б. Чалдини , Стив Дж. Мартин , Стив Мартин

Маркетинг, PR, реклама / Образование и наука / Финансы и бизнес / Деловая литература / Психология