Летом 1905 года компания Guinness
отправила своего нового эксперта по статистике в Англию на консультацию к последователю Гальтона Карлу Пирсону, которого в то время считали ведущим мировым статистиком. Госсет объяснил, что хочет научиться сравнивать небольшие количества разных вещей: так, экспериментируя с ячменем, в Guinness рассматривали лишь четыре его сорта. Точно вывести стандартное отклонение для выборки из четырех единиц чрезвычайно сложно, и Госсет надеялся, что Пирсон хотя бы подскажет ему, как в таком случае оценивать ошибку и принимать нужные субъективные решения, например определять, какой уровень вероятности стоит считать значимым. Но в то время еще ни у кого, включая Пирсона, не было статистических инструментов для работы с такими малыми выборками. Постаравшись не обидеть Госсета, Пирсон обучил его всем известным ему статистическим приемам. По словам Госсета, они управились за полчаса.Как ни странно, этого оказалось достаточно, чтобы по возвращении на Guinness
Госсет внедрил кое-какие методы анализа данных. И его инновация была признана успешной, поскольку через год пивоварня снова отправила Госсета работать с Пирсоном и Госсет поступил в Лондонский университетский колледж. К 1907 году, сделав, как он выразился, несколько “удачных предположений”, Госсет получил ответ на свои вопросы об ошибках в малых выборках. Исследовались не данные о ячмене, а рост и длины средних пальцев левой руки преступников из местной тюрьмы, а сведения предоставлял Скотленд-Ярд, что стало возможно, как мы вскоре увидим, поскольку Фрэнсис Гальтон вызвался найти (и искоренить) преступное естество английского общества.Когда проблема оказалась решена, Госсет снова вернулся в Дублин и применил новые статистические законы. Благодаря им стало очевидно, что лучше всего для Guinness
подходит сорт “Лучник”, и пивоварня быстро скупила все семена этого сорта, которые были на рынке: 1000 бочек. Через год после посева у Guinness оказалось 10 тысяч бочек семян, которые можно было распределять между фермерами, а больше их нигде не было. Guinness захватила контроль над самым важным сырьем для своего пива.Как только вопрос с ячменем был улажен, Госсету разрешили опубликовать свое открытие. Ему не позволили подписать статью своим именем, чтобы конкуренты Guinness
не раскрыли секрет пивоварни, и предложили на выбор два псевдонима: Пьюпил (“ученик”) и Стьюдент (“студент”). Так и появился t-критерий Стьюдента.Этот t
-критерий позволяет нам понять, как взаимосвязаны размер выборки и степень неопределенности, которую он вносит в расчеты. Зная это, мы можем оценивать достоверность своих результатов. Инновация Госсета прекрасно работала в Guinness, но правда в том, что никто не обращал на нее внимания, пока Рональд Фишер – человек, который решил, что считается статистически значимым, – не доказал ее математически и не расширил диапазон ее применения. Теперь мы используем t-критерий всякий раз, когда хотим сравнить разные выборки. В медицинских исследованиях мы применяем его, чтобы оценивать действенность антиретровирусной терапии при лечении ВИЧ. В исследованиях бизнеса он позволяет нам изучать, какой эффект оказывают различные вмешательства – например, совершенствование протоколов обслуживания клиентов. И он по-прежнему применяется в той сфере, с которой все и началось, – в сельскохозяйственных исследованиях, где он показывает нам эффективность удобрений, относительную ценность разных сортов выращиваемых культур и безопасность таких переработанных продуктов, как молоко и сыр.Компромиссы сжатия
Несмотря на все новаторские предложения Фишера, в последние несколько десятилетий миром правит другая выборочная статистика, которая значительно повысила качество нашей жизни и дала нам такие известные аббревиатуры, как JPEG, MPEG, MP3 и HDTV. Давайте рассмотрим математику сжатия данных.
В 2019 году население США получило более 1 триллиона аудио- и видеофайлов в формате потокового вещания с серверов, раскиданных по всему миру. Учитывая пропускную способность каналов передачи данных, формирующих интернет, это было бы невозможно, если бы передаваемые файлы не были “сжатыми”, то есть содержащими гораздо меньший объем данных, чем оригинал. А сжатие не выполнить без выборочной статистики.
Записывая музыкальную композицию, мы хотим, чтобы запись содержала всю информацию, которая необходима для воспроизведения того, что мы слышали в оригинале. Эта информация может быть записана на дорожки виниловой пластинки, в микроскопические углубления на пластике компакт-диска или закодирована нулями и единицами в цифровом файле, но она так или иначе сообщает проигрывающему музыку устройству, звуки какой частоты воспроизводить в конкретный момент и как согласовывать их уровень громкости. Даже для трехминутной поп-песни это огромный объем данных. Но оказывается, что без значительной их части можно обойтись.