В первом десятилетии XX века не существовало мирового научного сообщества в современном виде, и математические работы пересекали границы с большим трудом. Эйнштейн не знал о работе Башелье со случайными блужданиями. Марков не знал об Эйнштейне. Никто из них не знал о Рональде Россе. И тем не менее все они пришли к одним и тем же заключениям. Невозможно избавиться от ощущения, что в начале 1900-х годов нечто витало в воздухе – какое-то болезненное осознание неизбежной пузырящейся случайности, лежащей в основе вещей. (Не говоря уже о развитии квантовой механики, которая в итоге вплетет вероятность в физику совершенно другим путем.) Говорить о геометрии пространства (вне зависимости от того, является ли оно сосудом с жидкостью, пространством рыночных состояний или кишащим комарами болотом) – значит говорить о том, как что-то в нем движется, и, похоже, во всем мире геометрии не найдется области, где случайное блуждание не оказалось бы иллюстративным инструментом. Позже мы увидим, что цепи Маркова играют крайне важную роль при изучении способов разделения штатов на избирательные округа, а прямо сейчас посмотрим, как они применяются к чисто абстрактному пространству самого английского языка.
Оригинальная работа Маркова была чисто абстрактным упражнением по теории вероятностей. Есть ли у нее практические применения? В одном из писем Марков писал, что его заботят только вопросы чистой науки, а вопрос применимости теории вероятностей ему безразличен. Согласно Маркову, выдающийся статистик и специалист по биометрике Карл Пирсон не сделал ничего заслуживающего упоминания. Узнав через несколько лет о предыдущей работе Башелье о случайных блужданиях на бирже, он заметил, что, конечно же, видел ее[162]
, но она ему сильно не понравилась, и что он не берется судить о ее значимости для статистики, но для математики, на его взгляд, она совершенно бесполезна.Однако в итоге Марков таки сдался и применил свою теорию к области, которая объединяет в России и атеистов, и православных, – поэзии Александра Сергеевича Пушкина. Смысл и искусство пушкинской поэзии, разумеется, не поддаются механике вероятности, поэтому Марков ограничился первыми 20 000 букв романа в стихах «Евгений Онегин», которые рассмотрел как последовательность согласных и гласных, а если точнее, то 43,2 % гласных и 56,8 % согласных. Возможно, кто-то наивно надеялся, что буквы независимы друг от друга, а значит, буква, следующая за согласной, будет согласной ровно с такой же вероятностью, с какой согласные встречаются во всем тексте, то есть 56,8 %.
Однако Марков обнаружил, что это не так. Он тщательно подсчитал все пары последовательных букв, разбив их на четыре комбинации – согласная-согласная, согласная-гласная, гласная-согласная и гласная-гласная, – и получил следующую диаграмму:
Эта марковская цепь похожа на ту, что управляла комаром на двух болотах; просто вероятности поменялись. Если искомая буква – согласная, то следующая буква будет гласной с вероятностью 66,3 % и согласной с вероятностью 33,7 %. Двойные гласные встречаются еще реже: шансы, что одна гласная сменит другую, составляют всего 12,8 %. Эти числа статистически устойчивы по всему тексту. Вы можете рассматривать их как статистическую подпись пушкинского текста. В самом деле, позднее Марков вернулся к задаче и изучил 100 000 букв из романа Сергея Аксакова «Детские годы Багрова-внука». Процентное содержание гласных у Аксакова не особо отличалось от пушкинского: 44,9 %. Но эта марковская цепь выглядит совершенно иначе:
Если по какой-нибудь причине вам нужно определить, принадлежит неизвестный текст на русском языке Аксакову или Пушкину, есть один хороший способ (особенно если вы не умеете читать по-русски) – посчитать пары последовательных гласных, к которым Аксаков, похоже, благоволил, а Пушкин их избегал.