Читаем Искусство статистики. Как находить ответы в данных полностью

В главе 5 мы проводили линии регрессии для данных Гальтона о росте, что позволяло предсказывать, например, рост дочерей на основе роста их матерей с помощью регрессионной прямой с угловым коэффициентом 0,33 (см. табл. 5.2). Но насколько мы можем быть уверены в положении такой прямой? Бутстрэппинг предоставляет интуитивно понятный способ ответить на этот вопрос, не делая никаких предположений о генеральной совокупности, из которой взяты наблюдения.

Составим из 433 пар дочь/мать (рис. 7.4) повторную выборку из 433 элементов (с возвратом) и построим для нее прямую наилучшего соответствия по методу наименьших квадратов. Повторим процедуру столько раз, сколько считаем нужным: рис. 7.4 показывает построенные всего по 20 таким перевыборкам линии наилучшего соответствия, чтобы продемонстрировать их разброс. Поскольку исходный набор данных велик, разброс у этих прямых относительно небольшой – при 1000 бутстрэп-выборках угловой коэффициент с вероятностью 95 % лежит в интервале от 0,22 до 0,44.


Рис. 7.4

Регрессионные прямые для 20 перевыборок из данных Гальтона о росте матерей и дочерей, наложенные на исходные данные. Из-за большого размера выборки угловой коэффициент прямых изменяется относительно слабо


Бутстрэппинг обеспечивает интуитивно понятный, удобный для использования компьютера способ выразить неопределенность в оценках, не делая сильных предположений и не используя теорию вероятностей. Однако этот метод неэффективен, когда нужно найти, например, погрешность в опросе 100 тысяч человек о безработице. Хотя бутстрэппинг – простая, блестящая и крайне эффективная идея, перерабатывать с его помощью такие огромные объемы данных неудобно, особенно при наличии теории, которая может предоставить готовые формулы для величины интервалов неопределенности. Но прежде чем мы ее рассмотрим в главе 9, познакомимся с восхитительной, хотя и непростой теорией вероятностей.

Выводы

• Интервалы неопределенности – важная часть информации о характеристиках выборки.

• Бутстрэппинг – это метод создания из первоначальной выборки новых наборов данных одинакового размера посредством перевыборок с возвратом.

• Выборочные характеристики, вычисленные с помощью бутстрэп-выборок, для больших наборов данных близки к нормальному распределению – независимо от формы исходного распределения данных.

• Интервалы неопределенности, построенные с помощью бутстрэппинга, используют вычислительные мощности современных компьютеров, не требуют предположений о математическом виде генеральной совокупности и сложной теории вероятностей.

Глава 8. Вероятность – язык неопределенности и случайности

В 1650-х годах самозваный шевалье[156] де Мере столкнулся во время игры с дилеммой. Не то чтобы он был уж слишком азартным игроком (хотя играл довольно увлеченно), но тем не менее хотел знать, в какой из двух игр у него больше шансов на победу.


Вариант 1. Правильная игральная кость бросается четыре раза, игрок побеждает, если хотя бы раз выпадает шестерка.

Вариант 2. Пара правильных игральных костей бросается 24 раза, игрок побеждает, если хотя бы раз выпадает пара шестерок.


На что выгоднее поставить?

В соответствии с эмпирическими статистическими принципами шевалье де Мере решил сыграть в обе игры много раз и посмотреть, насколько часто он выигрывает. Это потребовало немало времени и усилий, но в причудливой параллельной вселенной, где были компьютеры, но не было теории вероятностей, шевалье не потратил бы столько времени на сбор данных, а просто смоделировал бы тысячи игр.

На рис. 8.1 представлены результаты такого моделирования – доля побед по мере увеличения количества прохождений игр. Хотя какое-то время Вариант 2 кажется выгоднее, примерно после 400 игр становится ясно, что Вариант 1 лучше и что в (очень) долгосрочной перспективе шевалье может рассчитывать на победу примерно в 52 % игр для Варианта 1 и только 49 % игр для Варианта 2.


Рис. 8.1

Перейти на страницу:

Все книги серии МИФ. Научпоп

Как рождаются эмоции. Революция в понимании мозга и управлении эмоциями
Как рождаются эмоции. Революция в понимании мозга и управлении эмоциями

Как вы думаете, эмоции даны нам от рождения и они не что иное, как реакция на внешний раздражитель? Лиза Барретт, опираясь на современные нейробиологические исследования, открытия социальной психологии, философии и результаты сотен экспериментов, выяснила, что эмоции не запускаются – их создает сам человек. Они не универсальны, как принято думать, а различны для разных культур. Они рождаются как комбинация физических свойств тела, гибкого мозга, среды, в которой находится человек, а также его культуры и воспитания.Эта книга совершает революцию в понимании эмоций, разума и мозга. Вас ждет захватывающее путешествие по удивительным маршрутам, с помощью которых мозг создает вашу эмоциональную жизнь. Вы научитесь по-новому смотреть на эмоции, свои взаимоотношения с людьми и в конечном счете на самих себя.На русском языке публикуется впервые.

Лиза Фельдман Барретт

Зарубежная образовательная литература, зарубежная прикладная, научно-популярная литература

Похожие книги

Бозон Хиггса
Бозон Хиггса

Джим Бэгготт, ученый, писатель, популяризатор науки, в своей книге подробно рассматривает процесс предсказания и открытия новой частицы – бозона Хиггса, попутно освещая такие вопросы фундаментальной физики, как строение материи, происхождение массы и энергии. Автор объясняет, что важность открытия частицы заключается еще и в том, что оно доказывает существование поля Хиггса, благодаря которому безмассовые частицы приобретают массу, что является необходимым условием для возникновения материи. Из книги вы узнаете о развитии физических теорий, начиная с античного понятия об атоме, и техническом прогрессе, позволившем их осуществить, а также историю обнаружения элементарных частиц.

Джим Бэгготт

Зарубежная образовательная литература, зарубежная прикладная, научно-популярная литература / Физика / Прочая научная литература / Прочая справочная литература / Образование и наука / Словари и Энциклопедии
Происхождение человека и половой отбор
Происхождение человека и половой отбор

Многие из взглядов, здесь высказанных, имеют в высшей степени умозрительный характер  и некоторые из них, без сомнения, окажутся ошибочными; но во всяком отдельном случае я приводил основания, заставившие меня предпочесть один взгляд другому. Казалось, во всяком случае, стоящим внимания испытать, насколько принцип эволюции способен пролить свет на некоторые из сложнейших задач в естественной истории человека. Ложные факты в высшей степени вредны для прогресса науки, так как они часто долго признаются истинными; но ложные взгляды, если они поддержаны некоторыми доказательствами, приносят мало вреда, потому что   каждому доставляет спасительное удовольствие доказывать, в свою очередь, их ошибочность; а когда это сделано, то один из путей к заблуждению закрывается, и часто в то же время открывается путь к истине.   Главное заключение, здесь достигнутое, и теперь усвоенное многими  натуралистами, вполне способными к здравому суждению, состоит в том, что человек произошел от некоторой менее высокоорганизованной формы. Основания, на которых покоится это утверждение, никогда не будут потрясены: близкое сходство между человеком и низшими животными  в эмбриональном развитии, а также в бесчисленных чертах строения и   телосложения, как важных, так и самых мелких, вместе с удержанными им рудиментами и ненормальными возвратами, которым он порою  подвержен, - все это факты, не подлежащие спору.  Факты эти давно были известны, но до недавнего времени они ничего нам не говорили относительно происхождения человека. Теперь, когда  мы рассматриваем их при СВЕТЕ нашего знания о целом органическом мире, в их значении невозможно ошибиться. Великий принцип эволюции устанавливается ясно и прочно, когда  эти группы фактов рассматриваются в связи с другими, каково взаимное   сродство между членами одной и той же группы, их географическое распределение в прошлом и в настоящем и их геологическая последовательность. Невозможно поверить, чтобы все эти факты лжесвидетельствовали. Каждый, кто не довольствуется, подобно дикарю, взглядом на явления природы, как на события, не связанные между собою, не будет больше в состоянии допустить, что человек есть произведение отдельного акта сотворения.

Чарльз Роберт Дарвин

Зарубежная образовательная литература, зарубежная прикладная, научно-популярная литература