Читаем Методы статистического анализа исторических текстов (часть 2) полностью

Методы статистического анализа исторических текстов (часть 2)

Работы авторов настоящей работы были в числе первых работ в области непараметрических методов решения задач о "разладке". С самого начала мы стремились синтезировать такие методы, которые можно достаточно легко применять для решения практических задач. В этом отношении именно непараметричесике методы, не использующие априорную информацию о распределениях, представляются наиболее подходящими.

Итог нашим исследованиям в рассматриваемой области математической статистики подведен в книге [546]. Здесь мы изложим основные идеи нашего подхода применительно к ретроспективным методам обнаружения "разладки", т.к. именно эти методы использовались для анализа исторических текстов.

Наша методология основана на двух основных идеях. Первая состоит в том, что обнаружение изменения любой функции распределения или какой-либо иной вероятностной характеристики может быть (с любой степенью точности) сведено к обнаружению изменения математического ожидания в некоторой новой случайной последовательности, сформированной из исходной. Поясним это положение на следующем примере. Пусть анализируется случайная последовательность

X = {x } ,

"склеенная" из двух строго стационарных случайных последовательностей

1 t=1

склейки n .

Пусть известно, что X и X отличаются между собой одной из двумерных функций распределения, а именно, предположим, что функция

P{x u , x u } = F(u ,u ) до момента t = n - 2 равна F ,

а при t t = n +1 - F , причем \F - F \ > 0, где \ \ -обычная sup-норма. Хорошо известно, что функция распределения конечномерного случайного вектора может быть приближена равномерно с любой точностью функцией распределения случайного вектора с конечным числом значений. Отсюда следует, что при разбиении плоскости R на достаточно большое число непересекающихся областей A , j=1,...,r, вектор (x ,x ) можно аппроксимировать по распределению вектором с конечным числом значений. Поэтому, если ввести новые случайные последовательности

(I(A) - индикатор множества А), то хотя бы в одной из этих последовательностей происходит изменение математического ожидания. Следовательно, если существует алгоритм, обнаруживающий изменение математического ожидания, то этот же алгоритм обнаружит и изменение функции распределения. Аналогично можно обнаружить и изменение произвольной вероятностной характеристики. Например, если в последовательности меняется корреляционная функция, то рассматривая новые последовательности V = x x , =0,1,2,..., мы сведем задачу к обнаружению изменения математического ожидания в одной из последовательностей V .

Указанное обстоятельство позволяет ограничиться разработкой только одного, базового, алгоритма, который может обнаруживать изменение математического ожидания, а не создавать (вообще говоря, бесконечное) семейство алгоритмов для обнаружения изменений тех или иных вероятностных характеристик.

Вторая идея нашего подхода заключается в использовании для обнаружения моментов "разладок" семейства статистик вида

Y (n) = [(1 - - )] [ - x - x ] (1)

где 0 1, 1 n N-1, X= {x } - исследуемая реализация, и некоторых производных от этих статистик.

Семейство (1) представляет собой обобщенный вариант статистики Колмогорова-Смирнова, которая используется для проверки совпадения или различия функций распределения у двух выборок (при фиксированном n). Можно показать, что статистики вида (1) асимптотически (при N--> и сохранении соотношения между объемами "склеенных" реализаций) минимаксны (т.е. минимизируют максимально возможную вероятность ошибки оценивания момента "разладки") по порядку.

Указанные идеи (подробнее см.[546]) воплощены в комплексе прикладных программ VERDIA для персональной ЭВМ типа IBM-PC. Этот комплекс позволяет в диалоговом режиме обнаруживать "разладки" произвольной случайной последовательности. При помощи комплекса VERDIA нами был проведен анализ ряда конкретных исторических текстов. Результаты этого анализа изложены в следующем Дополнении 2 к настоящей книге.

ДОПОЛНЕНИЕ 2.

Б.Е.Бродский, Б.С.Дарховский, Г.В.Носовский, А.Т.Фоменко.

ВЫЯВЛЕНИЕ ОДНОРОДНЫХ И НЕОДНОРОДНЫХ ФРАГМЕНТОВ ВНУТРИ

РУССКИХ ЛЕТОПИСЕЙ, РИМСКИХ И ГРЕЧЕСКИХ ХРОНИК, В БИБЛИИ.

1. ВВЕДЕНИЕ.

В современной математической статистике большое применение нашел важный метод разладки, созданный А.Н.Ширяевым. В настоящей работе кратко описываются результаты интересного численного эксперимента, идея которого была впервые предложена А.Н.Ширяевым и А.Т.Фоменко. Эта идея и эксперимент обсуждались на научно-исследовательском семинаре "Геометрия и статистика", работавшем под их руководством в математическом ин-те им В.А.Стеклова АН СССР. Цель эксперимента - применить метод разладки к важной задаче выявления, распознавания "однородных кусков" внутри достаточно больших исторических (и более общо, - т.н. нарративных) текстов. К таким текстам относятся, в частности, исторические хроники, летописи и т.п. Теоретические основы метода разладки см. в статье Б.Е.Бродского и В.С.Дарховского, помещенного в настоящей книге как Дополнение 2.

Перейти на страницу: