Читаем Методы статистического анализа исторических текстов (часть 2) полностью

Методы статистического анализа исторических текстов (часть 2)

Первые работы в указанной области были опубликованы еще в 30-х годах (см. ссылку в [539] на работу Шьюхарта, посвященную задаче скорейшего обнаружения). Однако, строгой теории тогда построено не было. В 50-х годах появились работы Пейджа [540], [541], где был предложен метод обнаружения «разладки» как в ретроспективном, так и в скорейшем варианте. Этот метод, получивший впоследствии название метода кумулятивных сумм, и основанный на последовательном вычислении функции правдоподобия, оказался удобным с точки зрения организации расчетов и практически эффективным. Примерно в это же время А.Н. Колмогоров дал строгую постановку задачи о скорейшем обнаружении момента «разладки» для винеровского процесса, сформулировав ее как некоторую вероятностную экстремальную проблему. Эта проблема была решена А.Н. Ширяевым, который нашел в указанной ситуации оптимальный метод обнаружения. Итог исследованиям А.Н. Ширяева в этой области подведен в книге [542].

Интерес к проблематике задач о «разладке» стал возрастать с середины 60-х годов, что вызывалось потребностями приложений. При этом основные усилия исследователей направлялись на то, чтобы разработать методы, использующие как можно меньше априорной информации. Дело в том, что оптимальные и близкие к ним методы основаны на точном знании функций распределения до и после момента «разладки» и функции распределения момента «разладки» (если он случаен). Такую информацию трудно получить во многих интересных практических приложениях. В связи с этим обстоятельством стали развиваться минимаксные методы (позволяющие избавиться от информации о функции распределения момента «разладки») и непараметрические методы, позволяющие отказаться от информации о распределениях случайной последовательности. Большие обзоры работ по этой проблематике за последние 15–20 лет содержатся в работах [543]-[545].

Работы авторов настоящей работы были в числе первых работ в области непараметрических методов решения задач о «разладке». С самого начала мы стремились синтезировать такие методы, которые можно достаточно легко применять для решения практических задач. В этом отношении именно непараметричесике методы, не использующие априорную информацию о распределениях, представляются наиболее подходящими.

Итог нашим исследованиям в рассматриваемой области математической статистики подведен в книге [546]. Здесь мы изложим основные идеи нашего подхода применительно к ретроспективным методам обнаружения «разладки», т. к. именно эти методы использовались для анализа исторических текстов.

Наша методология основана на двух основных идеях. Первая состоит в том, что обнаружение изменения любой функции распределения или какой-либо иной вероятностной характеристики может быть (с любой степенью точности) сведено к обнаружению изменения математического ожидания в некоторой новой случайной последовательности, сформированной из исходной. Поясним это положение на следующем примере. Пусть анализируется случайная последовательность

X = {x},

«склеенная» из двух строго стационарных случайных последовательностей

1 t=1

склейки n.

Пусть известно, что X и X отличаются между собой одной из двумерных функций распределения, а именно, предположим, что функция

P{x u, x u } = F(u,u) до момента t = n — 2 равна F (),

а при t t = n +1 — F (), причем \F () — F ()\ > 0, где \ \ — обычная sup-норма. Хорошо известно, что функция распределения конечномерного случайного вектора может быть приближена равномерно с любой точностью функцией распределения случайного вектора с конечным числом значений. Отсюда следует, что при разбиении плоскости R на достаточно большое число непересекающихся областей A, j=1….,r, вектор (x,x) можно аппроксимировать по распределению вектором с конечным числом значений. Поэтому, если ввести новые случайные последовательности

(I(A) — индикатор множества А), то хотя бы в одной из этих последовательностей происходит изменение математического ожидания. Следовательно, если существует алгоритм, обнаруживающий изменение математического ожидания, то этот же алгоритм обнаружит и изменение функции распределения. Аналогично можно обнаружить и изменение произвольной вероятностной характеристики. Например, если в последовательности меняется корреляционная функция, то рассматривая новые последовательности V () = x x, =0,1,2…., мы сведем задачу к обнаружению изменения математического ожидания в одной из последовательностей V ().

Указанное обстоятельство позволяет ограничиться разработкой только одного, базового, алгоритма, который может обнаруживать изменение математического ожидания, а не создавать (вообще говоря, бесконечное) семейство алгоритмов для обнаружения изменений тех или иных вероятностных характеристик.

Вторая идея нашего подхода заключается в использовании для обнаружения моментов «разладок» семейства статистик вида

Y (n) = [(1 —)] [- x — x] (1)

где 0 1, 1 n N-1, X= {x } — исследуемая реализация, и некоторых производных от этих статистик.

Перейти на страницу: