Корреляция — это зависимость одной переменной от другой: зная величину первой, можно предсказать и величину второй — хотя бы приблизительно. («Предсказать» в данном случае значит «предположить», а не «напророчить»; можно предсказать, каким окажется рост родителей, зная рост их детей, и наоборот.) Графически корреляцию часто отображают диаграммой рассеяния
. В той, что приведена ниже, каждая точка — это страна: чем правее расположена точка, тем выше среднедушевой ВВП, а чем она выше — тем выше оценка жителями страны своей удовлетворенности жизнью. (Среднедушевой ВВП отмерен на логарифмической шкале, чтобы компенсировать убывающую предельную полезность денег, которую мы обсудили в главе 6.)[334]
Корреляция заметна невооруженным глазом: точки разбросаны вдоль диагонали — серой пунктирной линии, едва заметной за общим роем. Каждая точка насажена на стрелку, которая представляет собой микродиаграмму рассеяния для населения этой страны. Макро- и микродиаграммы показывают, что счастье коррелирует с доходом — как для жителей отдельных стран (стрелки), так и по всем странам в целом (точки). И я понимаю, что вас так и тянет предположить, как минимум предварительно, что богатство делает человека счастливым.
Откуда взялись стрелки, пронизывающие точки, и пунктирная серая линия? И как нам преобразовать зрительное впечатление, будто рой точек вытянулся вдоль диагонали, в нечто более объективное, чтобы мы по глупости не увидели закономерности в любой кучке рассыпанных зубочисток?
В таких случаях применяется математический метод под названием регрессия
— безотказная рабочая лошадка эпидемиологии и социальных наук. Посмотрите на диаграмму рассеяния ниже. Представьте себе, что любая единица данных — это гвоздь и мы соединяем каждый из них с жестким стержнем, используя резиновые ленты.
Допустим, эти ленты растягиваются только строго вверх или вниз, но не по диагонали и чем сильнее вы их растягиваете, тем больше их сопротивление. Закрепив все ленты, отпустите стрежень, позволив ему успокоиться.
Стержень замрет в таком положении, при котором минимальна сумма квадратов расстояний от каждого гвоздя до той точки на стержне, с которой его связывает лента. Это положение и есть прямая регрессии, которая выражает линейную зависимость между двумя переменными — у
, значения которой откладываются по вертикальной оси, и х, значения которой, соответственно, откладываются по оси горизонтальной. Длина ленты, связывающей каждый из гвоздей со стержнем, называется отклонением — это характерная для конкретного измерения упрямая доля значения величины у, которую невозможно предсказать на основании соответствующего значения величины х. Вернемся к графику, связывающему уровень счастья с уровнем дохода. Если бы доход точно предсказывал уровень счастья, каждая точка лежала бы строго на сером пунктире прямой регрессии, но с реальными данными такого никогда не происходит. Некоторые точки парят высоко над пунктирной линией (у них высокие положительные отклонения регрессии), например Ямайка, Венесуэла, Коста-Рика и Дания. Если не учитывать погрешность измерений и прочие источники шума, такое несовпадение демонстрирует, что в 2006 г. (когда собирались данные) люди в этих странах ощущали себя более счастливыми, чем можно было бы ожидать, исходя из их дохода, — может, благодаря какой-то другой благоприятной характеристике страны, например прекрасному климату или богатой культуре. Есть точки, лежащие ниже линии, например Того, Болгария и Гонконг, — видимо, что-то в этих странах делает людей немного более несчастными, чем мы могли бы предположить, если ориентироваться на их доход.
Кроме того, отклонения регрессии позволяют нам количественно выразить степень
корреляции переменных: чем короче ленты (больше скошенность кластера вправо вверх или вправо вниз), тем ближе точки к прямой и тем выше корреляция. С помощью несложных вычислений отклонения можно перевести в число r — коэффициент корреляции, меняющийся от –1 до 1. При r = –1 (не показано на рисунке) точки выстроены строго по диагонали, протянувшейся из верхнего левого угла в нижний правый; меньшие отрицательные значения соответствуют ситуации, когда точки все хаотичнее рассыпаны вокруг той же диагонали; при r = 0 точки — это беспорядочный рой мошек; при положительных значениях точки группируются вдоль другой диагонали, которая теперь тянется из нижнего левого угла в верхний правый; и, наконец, при r = 1 точки идеально ложатся на эту диагональ.