Читаем Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных полностью

Родственная этой проблема, известная как смещение вследствие пропущенных переменных, возникает в более сложных статистических методах.

Множественная регрессия – это статистический инструмент, который увязывает множество независимых переменных (предикторов) с зависимой от них переменной. Хотя есть особые случаи, для которых это неприменимо, в целом можно сказать, что пропуск любого предиктора ведет к появлению мнимых связей между другими предикторами и зависимой переменной. И, как и в предыдущем примере, поскольку мы не можем включить все возможные
предикторы, пропуск некоторых из них неизбежен. Риск, который несут такие темные данные, заключается в том, что выводы могут оказаться неверными. Конечно, статистики, зная об этих проблемах, разрабатывают инструменты для смягчения их воздействия.

Скрининг

В начале своей статистической карьеры я участвовал в проекте по выявлению предрасположенности к остеопорозу у женщин. Остеопороз – это патология, при которой кости теряют массу, становятся хрупкими и с большей вероятностью могут сломаться. По этой причине падения для пожилых людей могут быть особо опасными. Способы измерения плотности костей, например центральная двухэнергетическая рентгеновская абсорбциометрия (центральная DXA), существуют, но они, как правило, очень сложны и недешевы. Это означает, что нужен процесс, позволяющий идентифицировать людей, которые могут страдать от этого состояния. Цель проекта состояла в разработке простой анкеты, которая позволяет получить оценку вероятности возникновения остеопороза на основе известных факторов риска. При этом анкета должна была заполняться респондентом самостоятельно без необходимости присутствия специалиста.

Наша анкета, как и другие подобные инструменты скрининга, не могла бы полностью отделить имеющих предрасположенность от тех, у кого ее нет. Но даже несовершенная система, способная выявлять большинство тех, кто находится в группе высокого риска, была бы чрезвычайно ценной. Это позволило бы службам здравоохранения сосредоточить на них внимание и протестировать с помощью более точной и дорогостоящей процедуры.

Несовершенная система допускает ошибки двух видов. С одной стороны, она может пропустить того, у кого есть патология, – в нашем примере это кто-то с остеопорозом при отсутствии стандартных признаков. А с другой стороны, система может отнести здорового человека к имеющим заболевание. Очевидно, что чем ниже уровни ошибок обоих видов, тем лучше инструмент проверки. Казалось бы, можно снизить частоту ошибок первого вида до нуля, просто классифицируя всех как подверженных остеопорозу, но это делает скрининг бесполезным. И что еще хуже, это увеличивает уровень ошибок второго вида: мы классифицируем всех одинаково без реального выполнения условий. Аналогично мы могли бы уменьшить уровень ошибок второго вида до нуля, классифицируя всех как не имеющих предрасположенности, но и это совершенно бессмысленно. Учитывая, что инструмент несовершенен, нужно было найти какой-то баланс. Или, другими словами, следовало признать тот факт, что кого-то мы неизбежно будем классифицировать неверно.

Любой, кто окажется по результатам скрининга в группе высокого риска, будет подвергнут более тщательному обследованию, например с использованием центральной DXA. Среди этих людей будут и те, кого мы неверно классифицируем как потенциально страдающих остеопорозом, и в этом случае тест покажет отсутствие заболевания. Но другая группа, к которой по результатам скрининга будут отнесены не имеющие предрасположенности, не будет обследоваться так тщательно. Таким образом, мы не узнаем, с кем из этой группы мы ошиблись, по крайней мере до тех пор, пока их состояние не покажет со всей очевидностью нашу ошибку. Можно только надеяться (если инструмент скрининга достаточно эффективен), что таких окажется не слишком много, но их истинное состояние будет для нас темными данными.

Перейти на страницу:

Похожие книги

Теория праздного класса
Теория праздного класса

Автор — крупный американский экономист и социолог является представителем критического, буржуазно-реформистского направления в американской политической экономии. Взгляды Веблена противоречивы и сочетают критику многих сторон капиталистического способа производства с мелкобуржуазным прожектерством и утопизмом. В рамках капитализма Веблен противопоставлял две группы: бизнесменов, занятых в основном спекулятивными операциями, и технических специалистов, без которых невозможно функционирование «индустриальной системы». Первую группу Веблен рассматривал как реакционную и вредную для общества и считал необходимым отстранить ее от материального производства. Веблен предлагал передать руководство хозяйством и всем обществом производственно-технической интеллигенции. Автор выступал с резкой критикой капитализма, финансовой олигархии, праздного класса. В русском переводе публикуется впервые.Рассчитана на научных работников, преподавателей общественных наук, специалистов в области буржуазных экономических теорий.

Торстейн Веблен

История / Прочая старинная литература / Финансы и бизнес / Древние книги / Экономика