Читаем Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных полностью

Сложность оценки вероятного времени выживания иллюстрируется на примере пациентов с раком простаты третьей стадии. Эта стадия означает, что имеются свидетельства проникновения раковой опухоли в близлежащие ткани. Чтобы определить, какой из двух методов лечения более эффективно продлевает жизнь, пациентов случайным образом распределяют по двум группам, после чего сравнивают средние интервалы выживания в каждой из них. Однако непременно будут пациенты, которые проживут еще довольно долго – возможно, десятилетия. Это хорошая новость для них, но мы не можем ждать столько времени, чтобы узнать, какой из методов лучше. Таким образом, исследование, скорее всего, будет прекращено до того, как умрут все пациенты. Это означает, что мы не будем знать интервалы выживания тех пациентов, которые остались живы после прекращения исследования, – так появляются недостающие данные. Кроме того, пациенты, умершие в ходе наблюдений, могут умереть по какой-то другой причине. Данные о том, как долго они прожили бы до наступления смерти от рака, также отсутствуют. И, как вы уже можете предположить, есть и третья категория темных данных, связанная с теми, кто выйдет из исследования по причинам с ним не связанным.

Очевидно, что если просто проигнорировать пациентов, реальное время выживания которых нам неизвестно, то мы попадем в ловушку ошибочных выводов. Например, предположим, что один из методов лечения был эффективным настолько, что все, кроме пары пациентов, выжили и продолжили жить после окончания исследования. В этом случае если бы мы игнорировали всех, кроме двух умерших пациентов, то сильно бы недооценили эффективность лечения.

Однако, хотя мы не будем знать продолжительность жизни пациентов, оставшихся в живых после завершения исследования, а также тех, кто умер по другим причинам или добровольно выбыл, нам будет известен тот момент, когда они перестали наблюдаться. Такие временные интервалы называются «цензурированные», они показывают, что период времени между моментом, когда пациенты вошли в исследование и когда они должны были умереть от рака простаты, больше

, чем период времени, в течение которого они находились под наблюдением.

В 1958 г. в Journal of the American Statistical Association была опубликована интересная статья, в которой Эдвард Каплан и Пол Мейер показали, как оценить вероятность выживания людей за пределами временного интервала, то есть когда время выживания некоторых из них будет больше, чем время наблюдения[152]

. Значимость этой статьи иллюстрируется в докладе Георга Дворского, где, в частности, приводится тот факт, что статья Каплана – Мейера занимает 11-е место в рейтинге наиболее цитируемых научных статей всех времен[153]. Учитывая, что общее число научных статей превышает 50 млн можно сказать, что это немалое достижение.

Иногда нам нужно выйти за рамки простой оценки вероятности выживания людей дольше какого-то периода. Например, когда мы оцениваем средний интервал выживания. Распределения интервалов выживания, как правило, имеют положительное смещение. Это означает, что более длительные интервалы по сравнению со средним значением выживания встречаются реже, чем более короткие, то есть может быть много коротких интервалов и лишь небольшая горстка длинных. Статистики описывают такое распределение как «длинный хвост». Учитывая, что несколько наибольших значений при положительном смещении распределения могут быть намного больше

, чем основная масса значений, их отсутствие в анализе способно сильно повлиять на оценку среднего значения. Представьте себе, например, расчет среднедушевого дохода в Соединенных Штатах, исключив из него Билла Гейтса и других миллиардеров. Результат получится намного ниже. Что касается времени выживания, это может означать исключение тех пациентов, которые прожили дольше всех, что, несомненно, существенно исказит любые выводы.

Так что же делать с этой проблемой?

О расширении выборки, на этот раз включающей выбывших из исследования до наступления смерти от рака простаты, не может быть и речи. Мы не сможем, например, включить в выборку тех, кто умер от других причин, чтобы увидеть, через какое время они умерли бы от рака простаты (и снова контрфактуальность!).

Перейти на страницу:

Похожие книги

Теория праздного класса
Теория праздного класса

Автор — крупный американский экономист и социолог является представителем критического, буржуазно-реформистского направления в американской политической экономии. Взгляды Веблена противоречивы и сочетают критику многих сторон капиталистического способа производства с мелкобуржуазным прожектерством и утопизмом. В рамках капитализма Веблен противопоставлял две группы: бизнесменов, занятых в основном спекулятивными операциями, и технических специалистов, без которых невозможно функционирование «индустриальной системы». Первую группу Веблен рассматривал как реакционную и вредную для общества и считал необходимым отстранить ее от материального производства. Веблен предлагал передать руководство хозяйством и всем обществом производственно-технической интеллигенции. Автор выступал с резкой критикой капитализма, финансовой олигархии, праздного класса. В русском переводе публикуется впервые.Рассчитана на научных работников, преподавателей общественных наук, специалистов в области буржуазных экономических теорий.

Торстейн Веблен

История / Прочая старинная литература / Финансы и бизнес / Древние книги / Экономика