Это, в частности, означает, что, перед тем как бросать красные шары, мы можем оценить положение белого шара как (0 + 1) / (0 + 2) = 1/2, в то время как интуитивный подход подсказывает, что нельзя дать никакого ответа, так как пока нет никаких данных. В сущности, Байес использует информацию о том, как изначально была проведена линия, ведь мы знаем, что она определялась случайным броском белого шара. Эта первоначальная информация играет ту же роль, что и известная частотность случаев, используемая при маммографии или проверке на допинг, – она называется априорной информацией и влияет на наши окончательные выводы. Фактически, учитывая, что вышеприведенная формула добавляет один шар к числу красных шаров слева от линии и два шара к общему числу красных шаров, мы можем считать это эквивалентным тому, что вы уже бросили два «воображаемых» красных шара – по одному с каждой стороны от пунктирной линии.
Обратите внимание, что если ни один из пяти шаров не попадает слева от пунктирной линии, то мы оцениваем его положение не как 0/5, а как 1/7, что выглядит более осмысленно. Байесовская оценка не может быть 0 или 1, она всегда ближе к 1/2, чем простая доля: при таком «сжатии» оценки всегда стягиваются к центру исходного распределения, в нашем случае к 1/2.
Байесовский анализ берет знание о положении пунктирной линии, чтобы определить его априорное распределение
, добавляет новые факты, используя понятие правдоподобия, и делает заключение об апостериорном распределении, выражающем наши текущие знания об этой неизвестной величине. Например, с помощью компьютера можно вычислить, что промежуток от 0,12 до 0,78 содержит 95 % вероятности на рис. 11.4(b), поэтому мы можем с 95-процентной уверенностью сказать, что линия, отмечающая положение белого шара, лежит между этими граничными значениями. Чем больше красных шаров будут бросать на стол и сообщать об их положении относительно пунктирной линии, темОсновное расхождение в отношении байесовского анализа – источник априорного распределения. В примере со столом белый шар бросается наугад, поэтому любой согласится, что априорное распределение – это равномерное распределение от 0 до 1. Когда знание такого рода недоступно, предположения об априорном распределении приходится делать с помощью субъективных суждений, исторических данных или определения объективного априорного распределения
, чтобы данные могли говорить сами за себя без добавления субъективных суждений.Пожалуй, в этом заключена самая важная идея – что не существует никакого «истинного» априорного распределения и любой анализ должен включать анализ чувствительности к ряду альтернативных гипотез, охватывающих целый ряд возможных мнений.
Как лучше анализировать предвыборные опросы?
Мы видели, как байесовский анализ обеспечивает формальный механизм использования имеющихся знаний для более реалистичных выводов о конкретной, стоящей перед нами задаче. Эти идеи можно (буквально) перенести на другой уровень, поскольку многоуровневое, или иерархическое
, моделирование одновременно анализирует различные отдельные величины: мощность таких моделей отражена в успехах предвыборных опросов.Мы знаем, что в идеале опросы должны основываться на больших случайных репрезентативных выборках, однако их формирование обходится все дороже, а люди все чаще отказываются участвовать в опросах. Поэтому сегодня компании, занимающиеся опросами, по большей части полагаются на онлайн-панели[229]
. Поскольку, как известно, они не являются репрезентативными группами, впоследствии используется сложное статистическое моделирование, которое выясняет, какими могли бы быть ответы, если бы компании обеспечили надлежащую случайную выборку. Здесь на ум может прийти старое предупреждение о невозможности сделать шелковый кошелек из свиного уха[230].Ситуация усугубляется еще больше, когда дело доходит до предвыборных опросов, поскольку политические взгляды по стране распределяются неравномерно и заявления об общей картине на национальном уровне нужно делать на основе объединения результатов по многим различным штатам или избирательным округам. В идеале выводы следует делать на местном уровне, однако люди в онлайн-панели сильно неслучайным образом разбросаны по этим локальным областям, а значит, для такого локального анализа имеется весьма ограниченный объем данных.