Читаем Методы статистического анализа исторических текстов (часть 2) полностью

Работы авторов настоящей работы были в числе первых работ в области непараметрических методов решения задач о "разладке". С самого начала мы стремились синтезировать такие методы, которые можно достаточно легко применять для решения практических задач. В этом отношении именно непараметричесике методы, не использующие априорную информацию о распределениях, представляются наиболее подходящими.

Итог нашим исследованиям в рассматриваемой области математической статистики подведен в книге [546]. Здесь мы изложим основные идеи нашего подхода применительно к ретроспективным методам обнаружения "разладки", т.к. именно эти методы использовались для анализа исторических текстов.

Наша методология основана на двух основных идеях. Первая состоит в том, что обнаружение изменения любой функции распределения или какой-либо иной вероятностной характеристики может быть (с любой степенью точности) сведено к обнаружению изменения математического ожидания в некоторой новой случайной последовательности, сформированной из исходной. Поясним это положение на следующем примере. Пусть анализируется случайная последовательность

X = {x } ,

"склеенная" из двух строго стационарных случайных последовательностей

1 t=1

склейки n .

Пусть известно, что X и X отличаются между собой одной из двумерных функций распределения, а именно, предположим, что функция

P{x u , x u } = F(u ,u ) до момента t = n - 2 равна F ,

а при t t = n +1 - F , причем \F - F \ > 0, где \ \ -обычная sup-норма. Хорошо известно, что функция распределения конечномерного случайного вектора может быть приближена равномерно с любой точностью функцией распределения случайного вектора с конечным числом значений. Отсюда следует, что при разбиении плоскости R на достаточно большое число непересекающихся областей A , j=1,...,r, вектор (x ,x ) можно аппроксимировать по распределению вектором с конечным числом значений. Поэтому, если ввести новые случайные последовательности

(I(A) - индикатор множества А), то хотя бы в одной из этих последовательностей происходит изменение математического ожидания. Следовательно, если существует алгоритм, обнаруживающий изменение математического ожидания, то этот же алгоритм обнаружит и изменение функции распределения. Аналогично можно обнаружить и изменение произвольной вероятностной характеристики. Например, если в последовательности меняется корреляционная функция, то рассматривая новые последовательности V = x x , =0,1,2,..., мы сведем задачу к обнаружению изменения математического ожидания в одной из последовательностей V .

Указанное обстоятельство позволяет ограничиться разработкой только одного, базового, алгоритма, который может обнаруживать изменение математического ожидания, а не создавать (вообще говоря, бесконечное) семейство алгоритмов для обнаружения изменений тех или иных вероятностных характеристик.

Вторая идея нашего подхода заключается в использовании для обнаружения моментов "разладок" семейства статистик вида

Y (n) = [(1 - - )] [ - x - x ] (1)

где 0 1, 1 n N-1, X= {x } - исследуемая реализация, и некоторых производных от этих статистик.

Семейство (1) представляет собой обобщенный вариант статистики Колмогорова-Смирнова, которая используется для проверки совпадения или различия функций распределения у двух выборок (при фиксированном n). Можно показать, что статистики вида (1) асимптотически (при N--> и сохранении соотношения между объемами "склеенных" реализаций) минимаксны (т.е. минимизируют максимально возможную вероятность ошибки оценивания момента "разладки") по порядку.

Указанные идеи (подробнее см.[546]) воплощены в комплексе прикладных программ VERDIA для персональной ЭВМ типа IBM-PC. Этот комплекс позволяет в диалоговом режиме обнаруживать "разладки" произвольной случайной последовательности. При помощи комплекса VERDIA нами был проведен анализ ряда конкретных исторических текстов. Результаты этого анализа изложены в следующем Дополнении 2 к настоящей книге.

ДОПОЛНЕНИЕ 2.

Б.Е.Бродский, Б.С.Дарховский, Г.В.Носовский, А.Т.Фоменко.

ВЫЯВЛЕНИЕ ОДНОРОДНЫХ И НЕОДНОРОДНЫХ ФРАГМЕНТОВ ВНУТРИ

РУССКИХ ЛЕТОПИСЕЙ, РИМСКИХ И ГРЕЧЕСКИХ ХРОНИК, В БИБЛИИ.

1. ВВЕДЕНИЕ.

В современной математической статистике большое применение нашел важный метод разладки, созданный А.Н.Ширяевым. В настоящей работе кратко описываются результаты интересного численного эксперимента, идея которого была впервые предложена А.Н.Ширяевым и А.Т.Фоменко. Эта идея и эксперимент обсуждались на научно-исследовательском семинаре "Геометрия и статистика", работавшем под их руководством в математическом ин-те им В.А.Стеклова АН СССР. Цель эксперимента - применить метод разладки к важной задаче выявления, распознавания "однородных кусков" внутри достаточно больших исторических (и более общо, - т.н. нарративных) текстов. К таким текстам относятся, в частности, исторические хроники, летописи и т.п. Теоретические основы метода разладки см. в статье Б.Е.Бродского и В.С.Дарховского, помещенного в настоящей книге как Дополнение 2.

Перейти на страницу:

Похожие книги

1937. Трагедия Красной Армии
1937. Трагедия Красной Армии

После «разоблачения культа личности» одной из главных причин катастрофы 1941 года принято считать массовые репрессии против командного состава РККА, «обескровившие Красную Армию накануне войны». Однако в последние годы этот тезис все чаще подвергается сомнению – по мнению историков-сталинистов, «очищение» от врагов народа и заговорщиков пошло стране только на пользу: без этой жестокой, но необходимой меры у Красной Армии якобы не было шансов одолеть прежде непобедимый Вермахт.Есть ли в этих суждениях хотя бы доля истины? Что именно произошло с РККА в 1937–1938 гг.? Что спровоцировало вакханалию арестов и расстрелов? Подтверждается ли гипотеза о «военном заговоре»? Каковы были подлинные масштабы репрессий? И главное – насколько велик ущерб, нанесенный ими боеспособности Красной Армии накануне войны?В данной книге есть ответы на все эти вопросы. Этот фундаментальный труд ввел в научный оборот огромный массив рассекреченных документов из военных и чекистских архивов и впервые дал всесторонний исчерпывающий анализ сталинской «чистки» РККА. Это – первая в мире энциклопедия, посвященная трагедии Красной Армии в 1937–1938 гг. Особой заслугой автора стала публикация «Мартиролога», содержащего сведения о более чем 2000 репрессированных командирах – от маршала до лейтенанта.

Олег Федотович Сувениров , Олег Ф. Сувениров

Документальная литература / Военная история / История / Прочая документальная литература / Образование и наука / Документальное