Читаем Методы статистического анализа исторических текстов (часть 2) полностью

Типичным примером первой ситуации (отсутствие стабилизации с ростом объема выборки) является эволюция параметра 1 — количества слов в предложении. См. рис. Доп-3.2. Отчетливо видно, что даже при объеме выборок в 16000 слов кривые хаотичны, сильно перемешаны и размах колебаний слишком велик.

Типичным примером второй ситуации («слипание всех писателей») является поведение параметра 2 — количества слогов в слове. См. рис. Доп-3.3. Хотя при объеме выборок в 16000 слов кривые начинаются выпрямляться, стабилизироваться, однако все траектории практически сливаются друг с другом, слипаются, что делает невозможным различение авторов.

Аналогичная картина наблюдается и для параметров 4,5,6,7,8,9. Например, кривые параметра 9 не стабилизируются и перемешиваются. Поведение параметра 8 похоже на поведение параметра 2 — хотя при большом объеме выборок кривые выравниваются, однако они становятся очень близкими друг к другу, стремятся к одному и тому же значению, определяемому, следовательно, общими законами русского языка, а не индивидуальными особенностями писателя.

На этом основании нам представляется крайне сомнительным использование параметров 1,2,4,5,6,7,8,9 для различения авторов.


8. Частота употребления служебных слов оказывается авторским инвариантом

Замечательным исключением является параметр 3 — частота употребления всех служебных слов — ПРЕДЛОГОВ, СОЮЗОВ И ЧАСТИЦ. Эволюция этого параметра в зависимости от роста объема выборки показана на рис. Доп-3.4, рис. Доп-3.5, рис. Доп-3.6, рис. Доп-3.7.

В список служебных слов мы внесли следующие слова:

ПРЕДЛОГИ — в, на, с, за, к, по, из, у, от, для, во, без, до, о, через, со, при, про, об, ко, над, из-за, из-под, под.

СОЮЗЫ — и, что, но, а, да, хотя, когда, чтобы, если, тоже, или, то есть, зато, будто.

ЧАСТИЦЫ — не, как, же, даже, бы, ли, только, вот, то, ни, лишь, ведь, вон, то-есть, нибудь, уже, либо.

Итого — 55 служебных слов. Хотя список неполон, он оказался вполне достаточным для различения авторов.

ВАЖНЫЙ ЭКСПЕРИМЕНТАЛЬНЫЙ ФАКТ.

1) При величине выборок в 16000 слов процентное содержание служебных слов для каждого автора из нашего списка (за исключением одного писателя, о котором речь пойдет ниже) оказалось приблизительно постоянным вдоль всех его произведений, т. е. частотный график изображается практически горизонтальной прямой. Эта стабилизация происходит для всех 22 писателей (из 23 исследованных). См. рис. Доп-3.7.

2) Разность между максимальным и минимальным значениями параметра 3 (минимум и максимум взяты по всем исследованным писателям) значительно больше амплитуды его колебаний внутри произведений отдельных авторов. Амплитуда колебаний параметра 3 по разным писателям достаточно велика — от 19 % до 27,5 %. См. рис. Доп-3.7. Отсюда следует, что параметр 3 хорошо различает многих авторов.

На этом основании назовем параметр 3 — АВТОРСКИМ ИНВАРИАНТОМ.

Он может служить для атрибуции неизвестных произведений и для обнаружения плагиата, хотя и с определенной осторожностью, поскольку мы обнаружили писателей с очень близкими авторскими инвариантами, например, Фонвизин Д.И. и Толстой Л.Н. (см. ниже). Кроме того, для достаточно уверенных выводов нужны тексты большого объема.

Главным выводом здесь является нетривиальное утверждение о существовании авторского инварианта русских литературных текстов. Было бы интересно продолжить эксперименты с целью обнаружения других авторских инвариантов.

Подчеркнем, что подобные выводы можно делать только после проведения обширного вычислительного эксперимента. Лишь после того, как будет экспериментально доказано, что тот или иной параметр действительно стабилизируется внутри произведений каждого писателя, можно считать, что мы обнаружили инвариант. Причем обработанный список авторов должен быть достаточно велик по крайней мере несколько десятков. Строить же какие либо теории лишь на основе сравнения текстов одного или двух писателей — по нашему мнению необоснованно.

Интересно, что обнаруженный нами авторский инвариант практически не зависит от временной эпохи: в указанном списке авторов представлены писатели трех веков — от XVIII до XX.


9. Численные примеры

Поскольку, как выяснилось, основной интерес представляют графики для выборок в 16000 слов, то ограничимся именно этим случаем.

Для произведений И.С. Тургенева и Л.Н. Толстого приведем таблицу значений следующих параметров:

3 — количество всех служебных слов (в процентах),

1 — количество слов в предложении,

2 — количество слогов в слове,

9 — количество служебных слов в предложении,

7 — количество предлога «в» (в процентах),

8 — количество частицы «не» (в процентах).

параметры: | 3 | 1 | 2 | 9 | 7 | 8

ТУРГЕНЕВ 22,01 11,26 2,17 2,44 2,36 2,19 / 22,36 15,58 2,16 3,49 2.05 1,87 / 22,38 13,35 2,21 3,04 / среднее знач. 22,24 13,40 2,17 2,98 2,20 2,04 отклонение 0,016 0,322 0,023 0,35 0,14 0,16

параметры: | 3 | 1 | 2 | 9 | 7 | 8

Перейти на страницу:

Похожие книги

100 великих героев
100 великих героев

Книга военного историка и писателя А.В. Шишова посвящена великим героям разных стран и эпох. Хронологические рамки этой популярной энциклопедии — от государств Древнего Востока и античности до начала XX века. (Героям ушедшего столетия можно посвятить отдельный том, и даже не один.) Слово "герой" пришло в наше миропонимание из Древней Греции. Первоначально эллины называли героями легендарных вождей, обитавших на вершине горы Олимп. Позднее этим словом стали называть прославленных в битвах, походах и войнах военачальников и рядовых воинов. Безусловно, всех героев роднит беспримерная доблесть, великая самоотверженность во имя высокой цели, исключительная смелость. Только это позволяет под символом "героизма" поставить воедино Илью Муромца и Александра Македонского, Аттилу и Милоша Обилича, Александра Невского и Жана Ланна, Лакшми-Баи и Христиана Девета, Яна Жижку и Спартака…

Алексей Васильевич Шишов

Биографии и Мемуары / История / Образование и наука
1812. Всё было не так!
1812. Всё было не так!

«Нигде так не врут, как на войне…» – история Наполеонова нашествия еще раз подтвердила эту старую истину: ни одна другая трагедия не была настолько мифологизирована, приукрашена, переписана набело, как Отечественная война 1812 года. Можно ли вообще величать ее Отечественной? Было ли нападение Бонапарта «вероломным», как пыталась доказать наша пропаганда? Собирался ли он «завоевать» и «поработить» Россию – и почему его столь часто встречали как освободителя? Есть ли основания считать Бородинское сражение не то что победой, но хотя бы «ничьей» и почему в обороне на укрепленных позициях мы потеряли гораздо больше людей, чем атакующие французы, хотя, по всем законам войны, должно быть наоборот? Кто на самом деле сжег Москву и стоит ли верить рассказам о французских «грабежах», «бесчинствах» и «зверствах»? Против кого была обращена «дубина народной войны» и кому принадлежат лавры лучших партизан Европы? Правда ли, что русская армия «сломала хребет» Наполеону, и по чьей вине он вырвался из смертельного капкана на Березине, затянув войну еще на полтора долгих и кровавых года? Отвечая на самые «неудобные», запретные и скандальные вопросы, эта сенсационная книга убедительно доказывает: ВСЁ БЫЛО НЕ ТАК!

Георгий Суданов

Военное дело / История / Политика / Образование и наука
100 великих казней
100 великих казней

В широком смысле казнь является высшей мерой наказания. Казни могли быть как относительно легкими, когда жертва умирала мгновенно, так и мучительными, рассчитанными на долгие страдания. Во все века казни были самым надежным средством подавления и террора. Правда, известны примеры, когда пришедшие к власти милосердные правители на протяжении долгих лет не казнили преступников.Часто казни превращались в своего рода зрелища, собиравшие толпы зрителей. На этих кровавых спектаклях важна была буквально каждая деталь: происхождение преступника, его былые заслуги, тяжесть вины и т.д.О самых знаменитых казнях в истории человечества рассказывает очередная книга серии.

Леонид Иванович Зданович , Елена Николаевна Авадяева , Елена Н Авадяева , Леонид И Зданович

История / Энциклопедии / Образование и наука / Словари и Энциклопедии