Вы можете быть не способны вычислить оптимальный ответ. Но любая аппроксимация которую вы используете, с ее достоинствами и недостатками, должна быть объяснима с позиции байесовской теории вероятности. Вы можете не знать объяснения: но это не значит, что его не существует.
Так вы хотите использовать линейную регрессию вместо байесовских обновлений? Но посмотрите на структуру, лежащую в основе линейной регрессии, и вы увидите, что она выбирает лучшую точку с позиции оценки, данной гауссовской функцией правдоподобия, и ставит исходное над параметрами.
Вы хотите использовать регуляризованную линейную регрессию, потому что она работает на практике лучше? Ну, она соответствует (говорит байесианец) тому, чтобы ставить гауссову априорную информацию над весами.
Иногда вы не можете использовать байесовские методы так, как это описано в литературе; на самом деле это бывает довольно часто. Но когда вы можете использовать точное байесовское вычисление, которое использует каждый кусочек доступной вам информации, делайте это. Вы никогда не найдете статистический метод, который даст вам лучший ответ. Вы можете найти простую аппроксимацию, которая работает отлично почти все время, и так будет проще, но не точнее. Не будет, пока другие методы используют знания, возможно, в форме неявной априорной информации, что не позволяется при байесовских вычислениях; и тогда, когда вы применяете априорную информацию для байесовского вычисления, оно будет либо равно по результатам, либо будет лучше.
Когда вы используете специальный статистический инструмент старой школы с каким-либо (часто достаточно интересным) обоснованием, вы никогда не знаете, если у кого-то завтра появиться более продвинутый инструмент. Но когда вы напрямую можете использовать вычисление, которое отражает байесовский закон, вы делаете что-то наподобие помещения двигателя Карно в свою машину. Это, как говорится, по-байесовски оптимально.
Мне кажется, что те, кто пользуется множеством инструментов, смотрят на последовательность кубов {1, 8, 27, 64, 125, …}, указывают на разности {7, 19, 37, 61, …} и говорят «смотрите, жизнь не всегда проста — вам нужно адаптироваться к обстоятельствам». И байесианцы, которые указывают на лежащий в основе стабильный уровень {6, 6, 6, 6, 6, …}. И критики говорят: «Что за чушь вы несете? Это 7, 19, 37, а не 6, 6, 6. Вы упрощаете проблему, вы слишком привязаны к простоте».
Бесполезно быть простым на поверхностном уровне. Вы должны погрузиться глубже, чтобы найти стабильность.
Мыслите законами, а не инструментами. Необходимость вычислять приближения (аппроксимации) к закону не меняет закон. Самолеты по-прежнему состоят из атомов, они не станут исключением только из-за аэродинамических вычислений. Аппроксимация существует на карте, не на территории. Вы можете знать второй закон термодинамики и все еще пробовать себя как инженера, строя несовершенный двигатель машины. Второй закон не станет неприменим; ваше знание этого закона и цикла Карно помогает вам приблизиться к наибольшей эффективности, которую вы только можете достигнуть.
Мы не очаровываемся байесовскими методами только потому, что они красивы. Красота всего лишь побочный эффект. Теоремы Байеса изящны, когерентны, оптимальны и доказуемо однозначны потому, что они относятся к законам.
Приложение: Cyan отсылает нас к главе 37 книги о статистике Маккая, где данная проблема рассматривается более подробно.
Jaynes, E. T. (1990.) Probability Theory as Logic. In: P. F. Fougere (Ed.), Maximum Entropy and Bayesian Methods. Kluwer Academic Publishers.
MacKay, D. (2003.) Information Theory, Inference, and Learning Algorithms. Cambridge: Cambridge University Press.
Вне лаборатории
«Вне лаборатории ученые не мудрее, чем кто-либо еще». Иногда эта пословица говорится учеными, чтобы с сожалением напомнить себе о своей ошибочности. Иногда эта пословица говорится по менее похвальным причинам, чтобы девальвировать нежелательные экспертные рекомендации. Правдива ли пословица? Наверное, нет, в абсолютном смысле. Это кажется слишком пессимистичным — говорить, что ученые буквально не выше среднего уровня.
Но поговорка кажется в какой-то степени верной, и мы должны быть обеспокоены этим фактом. Мы не должны грустно вздыхать и мотать головой. Скорее, мы должны встревоженно подобраться. Почему? Предположим, пастушонок обучен считать овец, каждый раз, как овца проходит. Он знает, когда все овцы ушли и когда вернулись. Тогда ты даешь пастуху яблоки и спрашиваешь: «Сколько яблок?» Но он тупо на тебя смотрит. Он не обучен считать яблоки. Только овец. Вы, вероятно, заподозрите, что пастух плохо понимает счет. Теперь предположим, что мы видим, что кандидат экономических наук покупает каждую неделю лотерейный билет. Мы должны спросить себя — этот человек действительно понимает ожидаемую полезность на инстинктивном уровне? Или просто обучен выполнению различных алгебраических трюков?
Один пример мыслей Ричарда Фейнмана об ошибках в системе обучения физике: