Для решения этой проблемы мы положились на статистический факт – в любой книге не нужно далеко ходить, чтобы отыскать уникальную фразу. Например, предыдущее предложение было, возможно, единственным в мире упоминанием фразы «отыскать уникальную фразу» или, как минимум, было таковым до тех пор, пока мы не повторили его еще один раз. Поэтому мы добавили простое решение: наша тень не будет включать данные о частоте употреблений для слов и фраз, встреченных лишь несколько раз. При условии такой модификации восстановление полных текстов будет невозможным с математической точки зрения. Возникающая в результате тень – n
-грамы – показалась нам исключительно многообещающей. Тексты, защищенные копирайтом, не подвергались бы никакой угрозе (критерий 1). Мы знали, как из своей работы с неправильными глаголами, так и из анализа произведения Реймер, насколько много можно узнать от одного лишь отслеживания частоты употребления отдельно взятого слова (критерий 2). Это могло бы стать новым мощным способом для поиска концепций, а следовательно, и привлекательной идеей для компании, занимающейся проблемами поиска (критерий 3). А подсчет слов представляет собой, возможно, самую простую форму работы в области компьютерных наук (критерий 4).Разумеется, если мы ограничим себя данными n
-грамов, то слова окажутся практически лишенными любого контекста, то есть мы не сможем сказать, пишет ли кто-то об Элиа Казане как о великом режиссере или же о предателе своих друзей во времена «красной угрозы». Однако это не ошибка системы, а ее свойство: именно контекст делал данные юридически шаткими. Освободившись от контекста, мы могли бы заявить о том, что наша тень набора данных и связанные с ней инструменты могли бы стать открытыми не только для нас как исследователей, но и для всего мира. Наша тень нащупала важную точку – вы можете извлекать максимум пользы и удовольствия, не нарушая при этом закон. Нашим ответом на все вопросы стали n-грамы. Норвиг немного подумал над этой идеей, а затем решил, что можно попробовать. Он помог нам собрать команду – инженеров из Google Йона Орванта и Мэтта Грея, а также нашего интерна по имени Юань Шэнь. И вдруг мы поняли, что у нас появился доступ к самой большой коллекции слов в истории.Лидеры свободного слова
Язык состоит из слов. Но что такое «слово»?
Это довольно непростой вопрос. Давайте посмотрим на политиков. В ходе всей своей карьеры президент Джордж Буш-младший время от времени довольно творчески обходился с языком, например добавляя приставку mis-
(«лже-») перед словом underestimated («недооцененный»). Эти «бушизмы» сделали его предметом множества шуток и издевательств на вечерних юмористических телешоу. Язык, используемый политиками, подвергается настолько внимательному изучению, что даже такая, на первый взгляд, мелочь, как ошибка в орфографии, может стать по-настоящему злободневным вопросом[90]. В своих мемуарах бывший вице-президент Дэн Куэйл, публично опозорившийся тем, что неправильно написал слово potato, описывал случившееся так: «Это было не простой оплошностью, а поистине решающим моментом, причем самого худшего порядка». С публичными насмешками столкнулась и Сара Пэйлин после того, как использовала в «Твиттере» странное слово refudiated (Пэйлин пыталась сказать, что, подобно всем другим политикам, она является объектом двойных стандартов) [91]. Тем не менее после этого Пэйлин написала следующий твит: «Английский – это живой язык. Шекспир тоже любил придумывать новые слова» [92].И она права. Пьесы Шекспира наполнены неологизмами. По сути, Шекспир, как и Буш, был социальным консерватором и либералом в отношении приставок и суффиксов. Он часто создавал новые слова, используя ту же стратегию, которая заставила Буша создать слово misunderestimate
. Однако в отличие от Буша Шекспир смог оставить богатое лексическое наследие, поскольку его творения получили широкое признание. Например, он использовал приставку lack-, чтобы создавать слова типа lack-beard («безбородый»), lack-brain («безмозглый»), lack-love («лишенный любви») и lack-luster («скучный»). Что касается последнего слова, то его дальнейшую жизнь никак нельзя назвать скучной. Поэты вообще наслаждаются лексической свободой в значительно большей степени, чем политики. Стихотворение Льюиса Кэрролла «Бармаглот» состоит в основном из слов, придуманных автором, и, возможно, Кэрролл возликовал бы, узнав, как много из них вошло в современный английский язык.
Итак, какие же слова мы можем использовать в языке без страха, а какие могут сделать нас объектом насмешек со стороны сатириков?
Это слово или нет?
Лексикограф. Создатель словарей; безобидный работяга…
– Сэмюел Джонсон, «Словарь английского языка», 1755 —