Читаем Методы статистического анализа исторических текстов (часть 2) полностью

Проблеме обнаружения авторских инвариантов посвящена значительная научная литература. Так например, структура языка различных авторов изучалась с помощью отдельных распорядительных слов, в частности, предлога "в", частицы "не" [р3], или при помощи длины предложений и слов [р4]. Однако, как показали эксперименты, использование лингвистических спектров ОТДЕЛЬНЫХ распорядительных слов не позволяет обнаружить устойчивые инварианты. На это указал еще в 1916 году академик А.А.Марков [р5], отметивший что при больших объемах выборок результаты такого типа должны "колебаться около среднего числа, подчиняясь общим законам языка", что естественно затрудняет различение авторов.

Полезный подход продемонстрирован в ряде работ В.Фукса, где каждому автору сопоставляются такие его характеристики, как среднене количество слогов и среднее количество слов в предложении. Этот прием позволяет изобразить текст (автора) точкой на плоскости в случае использования двух параметров, или же точкой в многомерном пространстве (если число параметров возрастает).

Интересные исследования ведутся и в отечественной филологии (см., например, [р6]-[р9]).

Следует отметить общую характерную особенность этих и многих других (не упомянутых нами здесь) исследований. Обычно изучаются индивидуальные количественные параметры текстов и путем их сравнения ученые старались выявить "значимые различия", опираясь на которые можно было бы отличить друг от друга разных авторов. Однако главным вопросом здесь является - какие различия следует считать значимыми, а какие - нет. Тут открывается простор для субъективизма. И здесь коренятся главные трудности применения статистических методов к задачам такого сорта.

2. ЧТО ТАКОЕ АВТОРСКИЙ ИНВАРИАНТ?

Под АВТОРСКИМ ИНВАРИАНТОМ мы понимаем количественную характеристику литературных текстов (некий параметр), который

а) однозначно характеризует своим поведением произведения одного автора или небольшого числа "близких авторов", и

б) принимает существенно разные значения для произведений разных групп авторов.

Желательно, чтобы число "разных групп" было достаточно велико, и чтобы каждая группа объединяла относительно мало похожих, близких по стилю авторов.

Однако многообразие грамматических структур, участвующих в формировании литературных текстов, сильно затрудняет поиски таких инвариантов. Уже простые вычислительные эксперименты показывают, что обнаружение числовых характеристик, различающих разных авторов, - сложная задача. Дело в том, что когда человек пишет книгу, то существенную роль играют не только подсознательные, но и сознательные факторы. Например, частота употребления автором РЕДКИХ И ИНОСТРАННЫХ СЛОВ может, конечно, служить неким показателем его стиля, эрудиции. Однако этот показатель ЛЕГКО КОНТРОЛИРУЕТСЯ автором на СОЗНАТЕЛЬНОМ уровне, поскольку редкие и иностранные слова вставляются в текст нечасто и каждый раз автор специально отмечает про себя: "здесь я вставляю иностранное или редкое слово". В результате, как неопровержимо свидетельствуют конкретные подсчеты, использовать эту числовую характеристику в качестве авторского инварианта НЕЛЬЗЯ. Она контролируется автором, "скачет" и писатель может легко менять ее от произведения к произведению.

Отсюда видно, что количественная оценка индивидуальных отличительных особенностей автора - весьма нетривиальная задача. Сформулируем точнее - какими свойствами должен обладать авторский инвариант.

Искомая числовая характеристика должна удовлетворять следующим естественным требованиям.

1) Она должна быть достаточно "массовой", интегральной, чтобы СЛАБО КОНТРОЛИРОВАТЬСЯ автором на сознательном уровне. Другими словами, она должна быть его "бессознательным параметром", коренящимся настолько глубоко, что автор даже не задумывается о нем. А если бы даже задумался, то не смог бы долго его контролировать и в результате довольно быстро вернулся бы в прежнее устойчивое и ТИПИЧНОЕ для него состояние.

2) Искомый параметр должен сохранять "постоянное значение" для произведений данного автора. То есть, иметь небольшое отклонение от среднего значения (слабо колебаться) на протяжении всех его книг. Именно это свойство и позволяет говорить, что данный параметр является ИНВАРИАНТОМ.

3) Наконец, параметр должен уверенно различать между собой разные группы писателей. Другими словами, должно существовать достаточное число авторских групп, заметно отличающихся друг от друга значениями инварианта.

Третье условие важно. Ведь может случиться так, что некий параметр окажется слабо колеблющимся вдоль произведений каждого отдельного писателя, однако в то же время принимает ОДНО И ТО ЖЕ ЗНАЧЕНИЕ, будучи вычислен для РАЗНЫХ авторов. Другими словами, он не позволяет различать писателей.

ТОЛЬКО СОЧЕТАНИЕ ВСЕХ ТРЕХ ПЕРЕЧИСЛЕННЫХ УСЛОВИЙ ПОЗВОЛЯЕТ ГОВОРИТЬ, ЧТО МЫ ОБНАРУЖИЛИ АВТОРСКИЙ ИНВАРИАНТ.

3. НАШ ПОДХОД. ВЫБОРКИ И ШАГИ,

ЭВОЛЮЦИЯ ПАРАМЕТРА ВДОЛЬ ТЕКСТА.

Перейти на страницу:

Похожие книги

1937. Трагедия Красной Армии
1937. Трагедия Красной Армии

После «разоблачения культа личности» одной из главных причин катастрофы 1941 года принято считать массовые репрессии против командного состава РККА, «обескровившие Красную Армию накануне войны». Однако в последние годы этот тезис все чаще подвергается сомнению – по мнению историков-сталинистов, «очищение» от врагов народа и заговорщиков пошло стране только на пользу: без этой жестокой, но необходимой меры у Красной Армии якобы не было шансов одолеть прежде непобедимый Вермахт.Есть ли в этих суждениях хотя бы доля истины? Что именно произошло с РККА в 1937–1938 гг.? Что спровоцировало вакханалию арестов и расстрелов? Подтверждается ли гипотеза о «военном заговоре»? Каковы были подлинные масштабы репрессий? И главное – насколько велик ущерб, нанесенный ими боеспособности Красной Армии накануне войны?В данной книге есть ответы на все эти вопросы. Этот фундаментальный труд ввел в научный оборот огромный массив рассекреченных документов из военных и чекистских архивов и впервые дал всесторонний исчерпывающий анализ сталинской «чистки» РККА. Это – первая в мире энциклопедия, посвященная трагедии Красной Армии в 1937–1938 гг. Особой заслугой автора стала публикация «Мартиролога», содержащего сведения о более чем 2000 репрессированных командирах – от маршала до лейтенанта.

Олег Федотович Сувениров , Олег Ф. Сувениров

Документальная литература / Военная история / История / Прочая документальная литература / Образование и наука / Документальное