Читаем Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных полностью

Последствия парадокса Симпсона могут быть очень серьезными. Если бы мы не учитывали пол людей на «Титанике», то есть если бы эти данные отсутствовали, результаты нашего анализа показали бы, что пассажиры третьего класса с большей вероятностью выживут, чем члены экипажа. Но это утверждение было бы ложным в отношении мужчин или женщин в отдельности. Это означает, что если бы мы решили определить вероятность выживания человека вообще на борту лайнера, то получили бы неверную картину, поскольку он мог быть мужчиной или женщиной.

Далее мы подробно рассмотрим, почему возникают подобные ситуации, но, думаю, уже вполне понятно, что их возможные последствия выглядят устрашающе. Конечно, никто и не думал регистрировать необъятное число характеристик всех, кто плыл на корабле. В то же время если любая из этих характеристик может повлиять на наши выводы, то пренебрегая ею, мы создаем отсутствующие данные, способные вводить в заблуждение. Возможно, это не так критично в случае с «Титаником», поскольку речь идет об исторических данных, но давайте рассмотрим другой пример.

Предположим, мы проводим клиническое испытание, которое обсуждалось в предыдущей главе, сравнивая препарат А с препаратом Б. Для этого мы даем препарат А одной группе людей, а препарат Б – другой. Обе группы включают людей разных возрастов, и для удобства мы будем относить их либо к «младшим», либо к «старшим», в зависимости, скажем, от того, являются ли они моложе или старше 40 лет. Далее предположим, что в группе, принимающей препарат А, 10 младших и 90 старших, в то время как в группе, принимающей препарат Б, 90 младших и 10 старших.

Теперь посмотрим на результаты, где чем выше значение, тем эффективнее препарат. Эти гипотетические результаты приведены в табл. 3.

Предположим, средний балл для младших в группе А равен 8, а средний балл для младших в группе Б – 6, как показано в табл 3, а. Это говорит о том, что препарат А более эффективен для молодых, поскольку 8 больше 6.

Аналогично для старших предположим, что средний балл в группе А равен 4, а средний балл в группе Б – 2, как во втором ряду значений табл. 3, а. Для старших препарат А также более эффективен, чем препарат Б.

Хотя средний балл для старших ниже, чем для младших, очевидно, что и для тех и для других препарат А более эффективен, чем препарат Б. Мы определенно должны рекомендовать препарат А для всех возрастов.

А как обстоит дело в целом? Общий средний балл всех людей, получающих препарат А, составляет (8 × 10 + 4 × 90)/100 = 4,4, тогда как общий средний балл всех, получающих препарат Б, равен (6 × 90 + 2 × 10)/100 = 5,6. Эти результаты отображены в табл. 3, б. В целом, когда мы игнорируем возраст пациентов, препарат Б получает более высокий балл, чем препарат A.



Это означает, что если бы мы не регистрировали возраст пациентов, то есть при отсутствии этих данных, мы бы пришли к выводу, что препарат Б эффективнее, чем препарат A, хотя для младших A лучше, чем Б, и для старших A лучше, чем Б. Иначе говоря, А лучше, чем Б, для всех.

Первое, что приходит в голову: мы должны регистрировать возраст при сборе данных. Это, конечно, хорошо, но мы можем также регистрировать и множество других переменных, любая из которых грозит поставить наши результаты с ног на голову. При этом мы не способны зарегистрировать все возможные

переменные, а значит, темные данные будут всегда.

Ключ к решению состоит в том, как именно рассчитывать общие средние значения. В примере с испытаниями препаратов в группе А старших намного больше, чем младших, в то время как для группы Б верно обратное. Это приводит к снижению общего среднего значения: 8 больше 6, а 4 больше 2, но если учесть подавляющую долю старших в группе при расчете среднего значения 8 и 4 и подавляющую долю младших при усреднении 6 и 2, то результат изменится на противоположный.

Итак, теперь мы видим корни проблемы – это разные доли старших и младших в наших группах. В группе получавших препарат А было всего 10 % младших, а в группе получавших препарат Б младших было 90 %. Если бы обе группы имели равные доли младших и старших, то проблемы бы не возникло. Поскольку клинические испытания относятся к экспериментальным исследованиям, в которых мы контролируем число пациентов, получающих каждый из препаратов, проблему устранить возможно, сбалансировав доли младших и старших и сделав их одинаковыми в каждой группе.

Такой метод работает, если мы контролируем состав и численность групп. Но в случае с «Титаником» это невозможно: пассажиры были пассажирами, члены экипажа – членами экипажа, и этого изменить мы никак не можем.

Ниже приведен еще один пример, в котором мы не контролируем, кто в какую группу входит.

Перейти на страницу:

Похожие книги

Теория праздного класса
Теория праздного класса

Автор — крупный американский экономист и социолог является представителем критического, буржуазно-реформистского направления в американской политической экономии. Взгляды Веблена противоречивы и сочетают критику многих сторон капиталистического способа производства с мелкобуржуазным прожектерством и утопизмом. В рамках капитализма Веблен противопоставлял две группы: бизнесменов, занятых в основном спекулятивными операциями, и технических специалистов, без которых невозможно функционирование «индустриальной системы». Первую группу Веблен рассматривал как реакционную и вредную для общества и считал необходимым отстранить ее от материального производства. Веблен предлагал передать руководство хозяйством и всем обществом производственно-технической интеллигенции. Автор выступал с резкой критикой капитализма, финансовой олигархии, праздного класса. В русском переводе публикуется впервые.Рассчитана на научных работников, преподавателей общественных наук, специалистов в области буржуазных экономических теорий.

Торстейн Веблен

История / Прочая старинная литература / Финансы и бизнес / Древние книги / Экономика