Зачастую удается собрать лишь небольшую выборку данных (например, во время тестирования лекарства на добровольцах). Именно поэтому важно понимать, можно ли считать показатели этой выборки отражением действительности или нет, – иначе исследование теряет всякий смысл. Благодаря статистике можно взять выборку данных, рассчитать среднее ее значение и размах и сделать вывод о том, насколько эта выборка репрезентативна. Чем больше выборка, тем более показательным будет результат, но на практике сбор большого количества образцов обычно стоит недешево, поэтому с точки зрения экономии небольшие выборки – оптимальный вариант.
Рассчитав среднее значение и дисперсию, можно посчитать доверительный интервал – диапазон значений, в котором наверняка находится искомое истинное значение. Проще говоря, мы не можем быть на все 100 % уверены, что средний вес американского мужчины равен 81 кг. Но зато мы на 99 % уверены, что вес среднего американца находится в диапазоне 79–83 кг, если предполагать, что по нашей выборке данных можно судить обо всем мужском населении США. На графиках такие данные обычно изображаются колоколообразной кривой, а доверительный интервал всегда располагается «под колоколом» (рис. 5.3).
Рассмотрим еще один пример. Надо узнать вес всех собак в США (около 100 млн особей). Мы в случайном порядке обзваниваем ветклиники и приюты для животных, чтобы собрать данные о весе собак, прошедших через эти учреждения. Допустим, нам удалось собрать данные о 100 000 особей. Согласно этим данным, средний вес собаки равен 12 кг, а стандартное отклонение (один из показателей дисперсии) равно 2 кг. Приблизительно 95 % результатов обычно расположены между двумя стандартными отклонениями{45}
, следовательно, 95 % всех собак весят от 8 до 16 кг [12 – (2 × 2) и 12 + (2 × 2)]. Мы собрали большую выборку данных, поэтому почти на 99 % уверены в том, что полученные значения близки к реальным значениям для всей популяции собак. Однако, если бы мы позвонили лишь в одну ветклинику и собрали данные о весе только 100 собак, то были бы гораздо менее уверены в репрезентативности выборки, поскольку клиника может находиться в большом городе, а горожане предпочитают заводить питомцев поменьше. Поэтому данные нашей выборки были бы искажены.Рис. 5.3. Нормальное распределение, или колоколообразная кривая. Файл взят из Wikimedia Commons с разрешения D. Wells, CC BY-SA 4.0. https://commons.wikimedia.org/wiki/File: Standard_Normal_Distribution.png
Важно помнить, что независимо от нашей уверенности в полученных статистических данных любая выборка – это всего лишь часть общей картины. Пока мы не проанализируем весь доступный массив данных, не можем быть уверены в том, что результаты анализа той или иной выборки объективны. Представим, что перед нами стоит большой кувшин, в котором лежит 1000 шариков, из которых только 10 черного цвета. Если мы вытащим из кувшина 10 шариков, пять из которых будут черными – это крайне маловероятно, но все же возможно, – то можем прийти к ошибочному выводу, что половина всех шариков в кувшине окрашена в черный цвет. Как видите, надо быть готовыми к тому, что данные выборки уведут нас в неверном направлении (в жизни нередко так и происходит из-за преднамеренного или случайного использования неправильного метода формирования выборки).
В общем, следует всегда держать в уме, что
Карл Поппер, известный философ, оказавший огромное влияние на формирование взглядов Джорджа Сороса, выдвинул принцип фальсифицируемости. Согласно этому принципу любую научную теорию надо проверять экспериментально, и если она фальсифицирована, то признать ее недостоверной. Однако, если теория не фальсифицирована, это еще не говорит о том, что она достоверна, так как, возможно, мы пока просто не нашли фальсифицирующие доказательства. Аналогичным образом следует постоянно подвергать сомнению твердые убеждения и уверенность в собственной правоте и помнить, что новая информация может и должна привести к изменению первоначальных предположений.