Часто встречается односторонняя связь, например сложность пожара и количество пожарных, участвовавших в его тушении. Из наблюдаемой положительной корреляции вряд ли стоит делать вывод, что сложность пожара зависит от количества пожарных, или пытаться снизить сложность пожара, уменьшая количество пожарных в команде. Тем не менее обратная взаимосвязь выглядит разумной. При этом помните, что наличие статистической взаимосвязи не обязательно говорит о причинно-следственной связи. Корреляция бывает ложной. Блогер Дмитрий Чернышев в своем Живом Журнале[58]
приводит курьезные примеры, в которых присутствует статистическая связь, но явно отсутствует причинно-следственная. Так, есть сильная корреляция между:• потреблением моцареллы и количеством докторских степеней (один из самых известных примеров);
• потреблением сметаны и количеством мотоциклистов, погибших в ДТП;
• средним возрастом «Мисс Америка» и количеством людей, погибших от горячего пара, и т. д.
Другой пример ложной корреляции – та, что возникает по причине наличия общего тренда. Например, положительная корреляция между числом выехавших на отдых за рубеж и количеством произведенных турбин. Очевидно, что причинно-следственной связи между показателями нет. Но можно предположить, что оба показателя могут зависеть от экономического роста в стране. Значения коэффициента корреляции, близкие к нулю, необязательно говорят об отсутствии причинно-следственной связи – только об отсутствии линейной зависимости, взаимосвязь между величинами может быть более сложной.
Таким образом, при анализе статистической взаимосвязи в первую очередь нужно опираться на логическую объяснимость направления (положительная или отрицательная) и силы взаимосвязи. Если эмпирический опыт подтверждается корреляцией, можно смело ее использовать. Если статистика не соответствует практике, необходимо использовать ее с осторожностью.
Кстати, и наличие корреляции не означает наличия причинно-следственной связи. Возможно, обе величины связаны с какой-то третьей и поэтому коррелируют, но между ними может не быть причинно-следственной связи.
Для расчета коэффициента корреляции в Google Таблицах и Excel (пример демонстрируется в Google Таблицах) есть функция КОРРЕЛ (CORREL). Ее аргументы – это диапазоны с наблюденными значениями показателей.
В примере в столбцах A и B находятся случайные числа (сгенерированные с помощью функции СЛУЧМЕЖДУ (RANDBETWEEN)). Коэффициент корреляции практически нулевой – что вполне естественно. Между двумя массивами случайных чисел связи нет.
Связь можно анализировать и на диаграммах – хорошо подходит точечная:
В следующем примере мы рассчитываем корреляцию между ценой нефти марки Brent и курсом USD/RUB. Связь весьма сильная: –0,82.
Диаграмма для этих данных:
Функция КОРРЕЛ аналогично работает и в Excel.
246. Масштаб оси на графике меняет все
Мы склонны верить точным цифрам и графикам (возможно, вы слышали о том, что в XIX веке высоту Джомолунгмы преувеличили – вместо 29 тысяч футов указали 29 002, чтобы людям не казалось, что расчеты были примерными). Но и статистика, и графики представляют собой поле для манипуляций.
Так, если на графике немного подкорректировать значения вертикальной оси и отобразить неполный период, то совсем небольшие колебания могут выглядеть как тренд или гигантский скачок.
Представьте, что на графике ниже – ВВП некой страны. Неплохой рывок в конце года, не так ли?
Но на самом деле это не рывок, а незначительный рост. И только в рамках полугодия – относительно первого полугодия же не все так радужно. Все дело в том, что диапазон значений оси на первом графике меньше и на нем нет первого полугодия.
Если вы хотите подробнее ознакомиться со статистическими манипуляциями, прочитайте небольшую книгу Дарелла Хаффа «Как лгать при помощи статистики»[59]
, где анализируются и объясняются все способы манипулирования данными.247. Соотношение Data Ink
Не используйте объем, затенение и другие визуальные эффекты, которые лишь мешают восприятию графиков и диаграмм.
Существует формула, разработанная Эдвардом Тафти[60]
– главным специалистом по информационному дизайну:Или, если перевести на русский язык:
В идеале это соотношение должно быть равно единице. Но часто оно гораздо ниже, потому что на графике много дополнительных неинформативных элементов. Сравните, например, следующие две круговые диаграммы, отображающие структуру продаж овощной лавки:
Кстати, круговые диаграммы, даже с хорошим коэффициентом Data-Ink, часто проигрывают линейчатым в простоте восприятия сообщения:
Больше о типах диаграмм можно прочитать в книге Джина Желязны «Говори на языке диаграмм»[61]
.Приложения
Приложение 1
Как быстро и легко проводить опросы, тесты и собирать обратную связь. Google формы