Когда мы читаем про очередного номинанта на премию Дарвина, самоубившегося самым невероятным способом, мы можем сказать, что это представитель крайней левой части кривой нормального распределения по интеллекту (или, если хотите, по удачливости). А если мы смотрим передачу про вундеркинда, запоминающего первые 10 тысяч цифр числа «пи» – перед нами очевидно представитель крайней правой части этой кривой. И в принципе, никакой мистики тут нет. Людей на планете очень много, среди них встречаются и поистине удивительные. Если мы возьмем большую группу людей (скажем, несколько миллионов), то в ней может оказаться несколько тысяч особо талантливых – а это, согласитесь, значительная цифра.
Возраст и здоровье – такие же примеры нормального распределения. Кто-то умрет в младенчестве, кто-то доживет до 110 лет. Все люди разные. Сторонник курения скажет: «Мой дед курил по две пачки в день и дожил до 90 лет». Что должен доказать этот аргумент? Что, может быть, дедушка дожил бы и до 95 лет, если бы не курил? В любом случае, у нас нет возможности вернуться в прошлое, отговорить этого дедушку от курения и дальше 70 лет следить за его здоровьем. Дожить до 90 лет – это нужно быть аномально здоровым. Но, увы, большинству даже здоровых людей так не повезет. А курящему большинству повезет еще меньше.
Однажды, мне довелось посмотреть телешоу про одаренных детей с участием мальчика, который по силуэту линии государственной границы узнает любую страну мира. Очень способный мальчик с очень хорошими родителями. Кто-то из людей, склонных к мистицизму, наверняка скажет, что подобные дети – лучшее доказательство существования новой расы – детей-индиго. Я же буду радоваться другому – что современный Интернет, социальные сети, телевидение способно выискивать удивительно талантливых людей. Ведь таланты есть: среди семи с половиной миллиардов людей на планете Земля найдется большое количество уникальных личностей (Ютуб не даст соврать).
Одна из расхожих статистических манипуляций – привлечение статистических данных, основанных на изначально некорректно выбранном множестве. Под репрезентативностью понимается соответствие характеристик сделанной нами выборки характеристикам полного множества объектов. Или, говоря проще, насколько изученное нами малое количество объектов отражает особенности всего множества этих объектов.
«Я не голосовал за кандидата А. на выборах, мои друзья и мои родственники тоже не голосовали, все, кого я знаю, тоже не голосовали. Какого черта тогда кандидат А. победил?»
Мы опросили 100 человек и выслушали их мнение по нескольким важнейшим политическим или общественным вопросам. Насколько адекватно их ответы отражают общественное мнение в целом? Мы провели исследование эффективности нового лекарства на выборке из 500 человек. Будет ли лекарство так же эффективно и безопасно, когда его выпустят на рынок и оно станет доступно миллионам людей? Нерепрезентативность выборки может быть связана с малым количеством исследуемых объектов (выборка недостаточна для однозначного вывода). Опыт, проведенный на 30 испытуемых, сложно назвать статистически значимым.
Выборка может быть неслучайной, например, если при социологическом опросе интервьюируют только людей одного пола, или определенного возраста, или определенного социального положения и/или этнической принадлежности. К примеру, опрос школьников о вреде курения можно провести только среди старшеклассников (нерепрезентативная выборка), а можно среди школьников разных возрастов (репрезентативная выборка).
Именно для устранения подобных статистических ошибок в медицине проводятся двойные слепые клинические испытания. Если врач сомневается в эффективности тестирумого лекарства, но заранее знает, где будет назначено плацебо, а где проверяемый препарат, то он может отобрать в группу препарата более легких больных. Двойное ослепление препятствует подобным намеренным или неосознанным манипуляциям с выборкой.
Как изменилась грамотность населения России за последние 20 лет? Действительно ли мы стали писать менее грамотно по сравнению с советским периодом или же, как считает лингвист Максим Кронгауз, нельзя судить так однозначно, так как с развитием Интернета письменным общением стало заниматься гораздо большее количество людей. Наверное, здесь действительно лучше провести более глубокое исследование, нежели руководствоваться «очевидностью ситуации вокруг».
Корреляцией называют статистическую взаимосвязь двух или более явлений, событий или множеств. Подводный камень здесь заключается в том, что два явления, явно коррелирующих друг с другом, не обязательно связаны причинно-следственной связью. То есть вовсе не обязательно одно явление порождает другое. Явления могут совместно порождаться некоей третьей скрытой причиной, либо корреляция и вовсе может оказаться результатом случайности.