"Ящик" диаграммы является прямоугольником, ограниченным верхним и нижним квартилями. Вертикальная линия внутри ящика обозначает медиану данных. "Усы" диаграммы обычно находятся на расстоянии, равном 1.5 межквартильным размахам от верхнего и нижнего квартилей. Это расстояние определяет "усы" как участок данных, который считается разумным или "нормальным", не считая выбросов.
Точки или значения, которые находятся за пределами "усов", считаются выбросами и могут указывать на потенциальные аномалии в данных. Они могут быть либо статистическими выбросами, то есть значениями, которые сильно отклоняются от общего распределения данных, либо реальными аномалиями, требующими дополнительного анализа.
Использование диаграммы ящика с усами позволяет исследователям быстро оценить распределение данных, выявить наличие выбросов и провести предварительный анализ данных перед более подробным исследованием. Это важный инструмент в исследовании данных и статистическом анализе, который помогает выявить важные паттерны и аномалии в данных.
Оба метода – Z-оценка и диаграмма ящика с усами – имеют свои уникальные преимущества и недостатки, и выбор между ними зависит от конкретной ситуации и требований анализа данных.
Z-оценка позволяет количественно оценить аномальность наблюдения путем вычисления стандартизированного значения отклонения от среднего. Это позволяет точно определить, насколько данное наблюдение отличается от среднего значения и измерить это отклонение в стандартных единицах. Этот метод особенно полезен, когда требуется численная оценка аномальности и сравнение различных переменных на одной шкале.
Диаграмма ящика с усами, с другой стороны, обеспечивает визуальное представление данных, что может быть особенно полезно для быстрого обзора больших наборов данных и выявления общих паттернов. Она позволяет увидеть основные статистические характеристики данных, такие как медиана, квартили и размах, и визуально идентифицировать наличие выбросов. Этот метод легко воспринимается и может быть эффективным средством первичного анализа данных.
В зависимости от специфики данных и требований анализа можно выбрать подходящий метод или их комбинацию для выявления аномалий и выбросов. Например, при работе с небольшими данными или когда необходимо количественно оценить аномальность наблюдений, Z-оценка может быть предпочтительным методом. В то же время, для быстрого визуального анализа данных или при работе с большими наборами данных диаграмма ящика с усами может быть более удобным инструментом.
-Машинное обучение
Другим эффективным подходом к выявлению аномалий в данных является использование алгоритмов машинного обучения. Этот метод позволяет автоматически обрабатывать большие объемы данных и выявлять сложные аномалии, которые могут быть неочевидны при применении традиционных статистических методов.
Один из подходов – это использование алгоритмов кластеризации, таких как DBSCAN или K-means, для группировки данных и выявления отдельных кластеров, которые могут содержать аномалии. Аномалии могут представлять собой наблюдения, которые не соответствуют ни одному из обнаруженных кластеров или находятся на границах кластеров.
Алгоритмы детектирования аномалий, такие как Isolation Forest и One-Class SVM (Support Vector Machine), представляют собой мощные методы, основанные на машинном обучении, для выявления аномалий в данных.
Isolation Forest основан на интуитивной идее о том, что аномальные точки имеют более короткий путь к корню дерева решений, чем обычные точки. Он строит лес деревьев решений, где каждое дерево разбивает пространство данных на подмножества, пытаясь изолировать аномальные точки от обычных. Затем аномальные наблюдения, которые требуют меньше разбиений для изоляции, считаются аномальными.
One-Class SVM, с другой стороны, обучает модель только на нормальных данных и затем оценивает, насколько новые наблюдения отклоняются от этой модели. Он стремится построить гиперплоскость, которая разделяет нормальные данные от потенциальных аномалий в пространстве признаков. Таким образом, он оценивает "нормальность" новых наблюдений, и если значение функции решения на новом наблюдении ниже определенного порога, это наблюдение считается аномальным.
Оба этих метода имеют свои преимущества и могут быть эффективными при выявлении аномалий в различных типах данных. Isolation Forest хорошо работает с большими данными и обладает низкой сложностью вычислений, в то время как One-Class SVM может быть эффективным при работе с многомерными данными и наборами данных с низкой плотностью. Выбор конкретного метода зависит от характеристик данных, размера выборки и требований к точности.
Наконец, можно обучать модели на нормальных данных и выявлять аномалии на основе их отклонения от этой модели. Например, можно использовать автоэнкодеры в нейронных сетях для обучения модели на нормальных данных и затем оценивать реконструкцию новых наблюдений. Наблюдения, которые плохо восстанавливаются моделью, могут рассматриваться как аномальные.