Среднее значение случайной величины также известно как математическое ожидание
, и в наших выборках мы можем ожидать долю левшей 0,2, или 20 %: все распределения, представленные на рис. 9.1, имеют среднее 0,2. Среднеквадратичное отклонение для каждого из них зависит от параметров распределения (в нашем случае 0,2) и размера выборки. Обратите внимание, что стандартное отклонение какой-то статистики обычно называют стандартной ошибкой, чтобы отличить от стандартного (среднеквадратичного) отклонения в распределении, из которого взяты данные. демонстрирует некоторые отличительные особенности. Во-первых, по мере увеличения выборки форма распределения становится более правильной и симметричной (так же как мы наблюдали при использовании бутстрэппинга), во-вторых, распределения сужаются. В следующем примере показано, как простое применение этих идей позволяет быстро определить, насколько статистическое утверждение обоснованно.Действительно ли в некоторых регионах Великобритании смертность от колоректального рака в три раза выше?
Заголовок на уважаемом новостном сайте «Би-би-си» в сентябре 2011 года настораживал: «Трехкратное различие в уровне смертности от колоректального рака в Великобритании». Далее в статье объяснялось, что в различных округах страны показатели смертности от рака толстой кишки значительно разнятся, а комментатор добавлял, что «местным органам здравоохранения крайне важно изучить эту информацию и использовать ее для оповещения о потенциальных изменениях в оказании услуг».
«Трехкратное различие» звучит необычайно драматично. Но когда блогер Пол Барден наткнулся на эту статью, он задался вопросом: «Неужели люди в разных частях страны действительно сталкиваются со столь значительной разницей рисков умереть от рака? Чем объяснить такое расхождение?» Он счел это настолько неправдоподобным, что решил заняться этой темой. К счастью, все данные были в открытом доступе в интернете, и Барден обнаружил, что они подтверждают заявление «Би-би-си»: ежегодные показатели смертности от этого вида рака действительно отличались в три раза между разными регионами страны – от 9 случаев на 100 тысяч человек в районе Россендейл (Ланкашир) до 31 на 100 тысяч в округе Глазго-Сити[169]
.Однако расследование на этом не закончилось. Барден построил диаграмму смертности населения в каждом округе, что дало картину, представленную на рис. 9.2. Видно, что точки (за исключением экстремального случая с Глазго-Сити) расположены в форме воронки, причем чем население округов меньше, тем разброс больше. Затем Пол добавил контрольные граничные значения
, которые показывают, куда могли бы попасть точки, если бы разница между наблюдаемыми уровнями определялась исключительно естественной неизбежной изменчивостью числа людей, ежегодно умирающих от рака толстой кишки, а не какими-то систематическими отклонениями в рисках для различных округов. Эти предельные значения получены из предположения, что число смертей – это наблюдение, взятое из выборки с биномиальным распределением, размер которой равен количеству взрослого населения округа: вероятность того, что любой конкретный человек умрет от рака в течение года, составляет 0,000176 (это средний риск смерти по всей стране). Граничные значения включают 95 % и 99,8 % всех наблюдений соответственно. График такого типа называется воронкообразным и широко используется при работе с несколькими медицинскими организациями или учреждениями, поскольку позволяет отобразить выбросы, не создавая упорядоченных таблиц.Рис. 9.2
Ежегодные показатели смертности от колоректального рака на 100 тысяч человек в 380 округах Великобритании в зависимости от численности населения округа. Две пары пунктирных линий, полученные исходя из предположения о биномиальном распределении, обозначают области, куда должны были бы попасть 95 % и 99,8 % округов, если бы между ними не было никакой разницы в рисках. Только Глазго демонстрирует риск, отличный от среднего. Такой способ представления данных называется воронкообразным графиком
Данные достаточно хорошо укладываются в указанные пределы, а значит, различия между округами как раз такие, как мы бы ожидали в результате случайной изменчивости. В маленьких округах меньше случаев заболевания, поэтому они более уязвимы к случайным отклонениям и поэтому их показатели рассеяны сильнее: в Россендейле зафиксировано всего семь смертей, поэтому один лишний случай сильно изменяет уровень смертности. Следовательно, несмотря на драматический заголовок «Би-би-си», никаких сверхоткрытий здесь нет – трехкратное различие в уровне смертности мы могли бы ожидать даже в случае, если бы вероятность заболеть была бы в точности одинаковой во всех округах.