Читаем Методы статистического анализа исторических текстов (часть 2) полностью

Следовательно, мы представили каждого писателя не точкой на плоскости или в пространстве, как это делалось, например, в работах [р1], [р2], а графиком — ломаной линией. Она наглядно показывает поведение исследуемого параметра вдоль произведений данного автора. Оказывается, такие графики очень удобны при поиске авторских инвариантов. В самом деле, теперь задача может быть переформулирована так.

Требуется найти такой лингвистический параметр и такой оптимальный объем выборок, чтобы соответствующие им графики изображались бы для каждого автора ПРАКТИЧЕСКИ ГОРИЗОНТАЛЬНЫМИ ЛИНИЯМИ — «ПРЯМЫМИ», т. е. слабо колеблющимися ломаными.

Другими словами, это будет означать, что числовые значения найденного инварианта мало отклоняются от своего среднего значения вдоль произведений каждого отдельного автора. Это явление — сглаживание ломаной кривой и ее стремление к горизонтальной прямой — назовем СТАБИЛИЗАЦИЕЙ лингвистического параметра.

Однако одного факта стабилизации еще недостаточно, чтобы можно было объявить данный параметр — авторским инвариантом. Совершенно необходимо, чтобы стабилизировавшиеся графики (т. е. практически горизонтальные прямые), отвечающие разным группам писателей, ЗНАЧИТЕЛЬНО ОТЛИЧАЛИСЬ бы друг от друга по высоте. То есть, они должны лежать на существенно разных уровнях. Напомним еще раз, что иногда «горизонтальные прямые», отвечающие разным авторам, могут оказаться близкими, лежащими на одном уровне. В этих случаях значения авторских инвариантов близки. Мы отнесем к одной группе писателей с близкими значениями параметров. Чтобы авторский инвариант был действительно эффективен, он должен разделить совокупность всех писателей на несколько групп с существенно разными значениями инварианта.

Если значения авторского инварианта для двух сравниваемых текстов оказываются близкими, отсюда нельзя делать заключение об их принадлежности одному писателю.

Ясно, что априори само существование таких замечательных лингвистических инвариантов ниоткуда не следует. Для их выявления требуется обширный вычислительный эксперимент. И такой эксперимент был нами проведен на протяжении нескольких лет. Перейдем к изложению результатов.


4. Постановка эксперимента

Список исследованных нами параметров

Для обнаружения «бессознательного параметра» — авторского инварианта, слабо или вообще не контролируемого писателями, мы изучили следующие количественные характеристики текстов.

1) ДЛИНА ПРЕДЛОЖЕНИЙ, т. е. среднее число слов в предложении (подсчитанное для каждой выборки).

2) ДЛИНА СЛОВ, т. е. среднее количество слогов в слове, подсчитанное для каждой выборки.

3) ОБЩАЯ ЧАСТОТА УПОТРЕБЛЕНИЯ СЛУЖЕБНЫХ СЛОВ — ПРЕДЛОГОВ, СОЮЗОВ, ЧАСТИЦ, т. е. процентное содержание служебных слов в каждой выборке.

4) ЧАСТОТА УПОТРЕБЛЕНИЯ СУЩЕСТВИТЕЛЬНЫХ, т. е. их процентное содержание в каждой выборке.

5) ЧАСТОТА УПОТРЕБЛЕНИЯ ГЛАГОЛОВ, т. е. их процентное содержание в каждой выборке.

6) ЧАСТОТА УПОТРЕБЛЕНИЯ ПРИЛАГАТЕЛЬНЫХ (в процентах).

7) ЧАСТОТА УПОТРЕБЛЕНИЯ ПРЕДЛОГА «В» (в процентах).

8) ЧАСТОТА УПОТРЕБЛЕНИЯ ЧАСТИЦЫ «НЕ» (в процентах).

9) КОЛИЧЕСТВО СЛУЖЕБНЫХ СЛОВ В ПРЕДЛОЖЕНИИ, т. е. среднее число союзов, предлогов и частиц в предложении.

Некоторые из перечисленных параметров рассматривались ранее. Однако предложенный нами параметр 3 — частота всех служебных слов — является, насколько нам известно, НОВЫМ.

Указанные параметры существенно различны по своему характеру. Наш параметр 3 особо выделяется своей интегральностью, «массовостью», так как здесь подсчитывается суммарный процент ВСЕХ СЛУЖЕБНЫХ СЛОВ, которых очень много! Большое число служебных слов, используемых в русском языке, делает этот параметр невероятно трудно контролируемым на сознательном уровне. Писатель может легко следить, например, за длиной своих предложений. Однако трудно представить себе автора, который при написании книги смог бы уследить за процентом своих служебных слов!

Параметры 7 (частота предлога «в») и 8 (частота частицы «не») описывают распределение отдельных служебных слов и заметно менее «массовы», чем суммарный параметр 3. Мы включили параметры 7 и 8 в наш список, чтобы выяснить — стабилизируются ли они и могут ли они служить в качестве авторских инвариантов (ответ оказался отрицательным!).

Параметр 9 — количество служебных слов в предложении — хотя и носит интегральный характер, однако существенно зависит от длины предложений и следовательно от их числа в выборке. А эта последняя величина, как показали подсчеты, весьма неустойчива и может колебаться в заметных пределах, не стабилизируясь.

Мы специально собрали в нашем списке самые разнородные числовые характеристики, чтобы составить представление о сравнительном поведении этих параметров и выбрать из них действительно стабилизирующийся (т. е. авторский инвариант), если таковой вообще найдется.

Перейти на страницу:

Похожие книги

100 великих героев
100 великих героев

Книга военного историка и писателя А.В. Шишова посвящена великим героям разных стран и эпох. Хронологические рамки этой популярной энциклопедии — от государств Древнего Востока и античности до начала XX века. (Героям ушедшего столетия можно посвятить отдельный том, и даже не один.) Слово "герой" пришло в наше миропонимание из Древней Греции. Первоначально эллины называли героями легендарных вождей, обитавших на вершине горы Олимп. Позднее этим словом стали называть прославленных в битвах, походах и войнах военачальников и рядовых воинов. Безусловно, всех героев роднит беспримерная доблесть, великая самоотверженность во имя высокой цели, исключительная смелость. Только это позволяет под символом "героизма" поставить воедино Илью Муромца и Александра Македонского, Аттилу и Милоша Обилича, Александра Невского и Жана Ланна, Лакшми-Баи и Христиана Девета, Яна Жижку и Спартака…

Алексей Васильевич Шишов

Биографии и Мемуары / История / Образование и наука
1812. Всё было не так!
1812. Всё было не так!

«Нигде так не врут, как на войне…» – история Наполеонова нашествия еще раз подтвердила эту старую истину: ни одна другая трагедия не была настолько мифологизирована, приукрашена, переписана набело, как Отечественная война 1812 года. Можно ли вообще величать ее Отечественной? Было ли нападение Бонапарта «вероломным», как пыталась доказать наша пропаганда? Собирался ли он «завоевать» и «поработить» Россию – и почему его столь часто встречали как освободителя? Есть ли основания считать Бородинское сражение не то что победой, но хотя бы «ничьей» и почему в обороне на укрепленных позициях мы потеряли гораздо больше людей, чем атакующие французы, хотя, по всем законам войны, должно быть наоборот? Кто на самом деле сжег Москву и стоит ли верить рассказам о французских «грабежах», «бесчинствах» и «зверствах»? Против кого была обращена «дубина народной войны» и кому принадлежат лавры лучших партизан Европы? Правда ли, что русская армия «сломала хребет» Наполеону, и по чьей вине он вырвался из смертельного капкана на Березине, затянув войну еще на полтора долгих и кровавых года? Отвечая на самые «неудобные», запретные и скандальные вопросы, эта сенсационная книга убедительно доказывает: ВСЁ БЫЛО НЕ ТАК!

Георгий Суданов

Военное дело / История / Политика / Образование и наука
100 великих казней
100 великих казней

В широком смысле казнь является высшей мерой наказания. Казни могли быть как относительно легкими, когда жертва умирала мгновенно, так и мучительными, рассчитанными на долгие страдания. Во все века казни были самым надежным средством подавления и террора. Правда, известны примеры, когда пришедшие к власти милосердные правители на протяжении долгих лет не казнили преступников.Часто казни превращались в своего рода зрелища, собиравшие толпы зрителей. На этих кровавых спектаклях важна была буквально каждая деталь: происхождение преступника, его былые заслуги, тяжесть вины и т.д.О самых знаменитых казнях в истории человечества рассказывает очередная книга серии.

Леонид Иванович Зданович , Елена Николаевна Авадяева , Елена Н Авадяева , Леонид И Зданович

История / Энциклопедии / Образование и наука / Словари и Энциклопедии