Если же данных много, то выбросы лучше искать автоматически. Делать это можно в Excel, Google Таблицах или в статистических пакетах.
Есть несколько базовых методов.
Правило трех сигм.
Все наблюдения, которые на три среднеквадратичных отклонения (сигмы) больше или меньше среднего, – выбросы.Формула среднеквадратичного отклонения:
Его можно рассчитать в Excel с помощью функции СТАНДОТКЛОН.В (STDEV.S), если у вас выборка из общей совокупности, и с помощью функции СТАНДОТКЛОН.Г (STDEV.P), если вы оцениваете отклонение по всей генеральной совокупности.
В Google Таблицах используйте функции СТАНДОТКЛОН (STDEV) для выборки и СТАНДОТКЛОНП (STDEVP) для генеральной совокупности.
Примечание.
Генеральная совокупность – это все объекты, которые вы собираетесь исследовать. Например, если вы проводите маркетинговое исследование своей целевой аудитории, генеральной совокупностью могут быть все мужчины от 25 до 39 лет с определенным доходом, проживающие в городе N.Соответственно, выборка – это часть генеральной совокупности, элементы, по которым есть наблюденные данные.
Если вы сомневаетесь – используйте формулу для выборки. Данные по всей генеральной совокупности встречаются редко.
Метод Тьюки
[57].1. Рассчитайте 25-й и 75-й персентили. В Excel и Google Таблицах – с помощью функции ПЕРСЕНТИЛЬ (PERCENTILE).
2. Вычтите 25-й персентиль из 75-го, чтобы получить межквартильный размах (МР).
3. Рассчитайте внутренние и внешние границы по следующим формулам:
Нижняя внешняя граница = 25-й персентиль – 3 МР;
Верхняя внешняя граница = 75-й персентиль + 3 МР;
Нижняя внутренняя граница = 25-й персентиль – 1,5 МР;
Верхняя внутренняя граница = 75-й персентиль + 1,5 МР.
4. Значения, лежащие за пределами внешних границ, – выбросы (если данные распределены нормально, то за пределами этих границ будет лежать лишь 0,000002 данных). Значения за пределами внутренних границ тоже можно считать выбросами, но не такими экстремальными. За их пределами будет лежать 0,01 данных.
244. Забудьте об абсолютной точности
Не стоит в аналитических и финансовых расчетах (речь, конечно, об управленческой отчетности и внутренних расчетах, а не о бухгалтерии) стремиться к абсолютной точности, к трем-четырем знакам после запятой.
Окажется ли решение более взвешенным, если вы будете знать о росте показателя на 1,247 % вместо того, чтобы знать о его росте на 1,2 %? Стоит ли более точный расчет того времени и внимания, которое на него потратите вы / аналитик / маркетер / кто-либо другой из ваших коллег?
245. Что на что влияет. Находим и интерпретируем корреляцию
Корреляция – это статистический показатель, характеризующий силу статистической связи между двумя случайными величинами (наборами наблюдаемых данных).
Коэффициент корреляции любых величин всегда лежит в диапазоне от – 1 до 1. На данном промежутке можно выделить следующие точки и интервалы:
– 1: детерминированная (неслучайная) отрицательная связь. Одна величина растет – другая падает, и наоборот. Связь строгая, то есть величины связаны напрямую.
от – 1 до – 0,8: сильная отрицательная связь. Вообще чем больше коэффициент корреляции (по модулю) тем сильнее связь.
от – 0,8 до 0: слабая отрицательная связь (значения ближе к нулю, скорее всего, означают полное отсутствие связи – такая корреляция может возникать случайно).
0: полное отсутствие связи.
от 0 до 0,8: слабая положительная связь (значения ближе к нулю, скорее всего, означают полное отсутствие связи – такая корреляция может возникать случайно).
от 0,8 до 1: сильная положительная связь.
1: детерминированная (неслучайная, строгая) положительная связь показателей.
Коэффициент корреляции полезен для определения причинно-следственных связей. При этом связь может быть двусторонней (например, привлекательность соцсети и количество зарегистрировавшихся пользователей – так называемый сетевой эффект). Чем привлекательнее социальная сеть, тем больше в ней регистрируется людей. Верно и в обратную сторону: чем больше зарегистрировавшихся пользователей, тем привлекательнее соцсеть.