Для больших массивов данных двумерного пространства редко бывает достаточно. Группа специалистов Google под руководством Томаша Миколова разработала гениальное математическое устройство Word2vec, которое можно назвать картой всех слов
. Нам больше не нужно полагаться на студентов и карточки, чтобы собрать информацию о том, какие слова сочетаются между собой. Программа Word2vec, обученная на наборе текстов из Google News объемом шесть миллиардов слов, присваивает каждому английскому слову точку в трехсотмерном пространстве. Нарисовать это трудно, но помните, что точно так же, как точка в двумерном пространстве задается двумя числами (широтой и долготой), точка в трехсотмерном пространстве – это всего лишь список из 300 чисел: долгота, широта, высота, мелкота, густота, прямота, частота, круглота и т. д. и т. п., насколько вам поможет словарь рифм. В трехсотмерном пространстве тоже есть понятие расстояния, которое не особо отличается от известного нам расстояния на плоскости[328]. Цель Word2vec – разместить похожие слова в точках, находящихся недалеко друг от друга.Что делает слова похожими? Вы можете представить, что у каждого слова есть облако соседей – слов, которые часто появляются вместе с ним в наборе текстов Google News. В первом приближении Word2vec расценивает два слова как похожие, если их облака соседей сильно перекрываются. Во фрагменте текста, окружающего слова glamour
(«очарование»), runway («подиум») или jewel («драгоценность»), вы можете ожидать найти слова stunning («оглушительный, ошеломительный») или breathtaking («захватывающий»), но не trigonometry («тригонометрия»). А потому слова stunning и breathtaking, в облаках которых встречаются общие слова glamour, runway и jewel, можно считать похожими, отражая тот факт, что эти два почти синонимичных слова часто встречаются в одинаковых контекстах. Word2vec ставит их на расстоянии 0,675 друг от друга. На самом деле из миллиона слов, которые умеет кодировать Word2vec, слово breathtaking – ближайшее к слову stunning. Для сравнения: расстояние от stunning до trigonometry составляет 1,403.Как только у нас появляется представление о расстояниях, можно говорить об окружностях и кругах. (Хотя, возможно, находясь в трехсотмерном пространстве, было бы лучше говорить об их многомерных аналогах – сферах и шарах.) Круг радиуса 1 вокруг слова stunning
содержит 43 слова, в том числе spectacular («зрелищный, эффектный»), astonishing («изумительный, поразительный»), jaw-dropping («крайне удивительный, феерический») и exquisite («изумительный, изысканный»). Машина явно улавливает нечто в этом слове, включая то, что оно может обозначать как красоту, так и удивление. Я должен отметить, что тут не происходит никакого численного выделения смысла слов. Это было бы настоящим подвигом. Вся стратегия строится вовсе не для этого. Расстояние от слова hideous («страшный, омерзительный») до stunning всего 1,12; хотя они почти противоположны по значению, вы вполне можете представить, что они часто появляются в общем контексте, например: «Этот свитер реально __________». Круг слов радиусом 0,9 от teh включает слова ther, hte, fo, tha, te, ot и thats – это даже не слова, не то что не синонимы, однако Word2vec правильно распознает, что все они могут появляться в контекстах с большим количеством опечаток.Нам нужно поговорить о векторах. Формальное определение этого термина выглядит устрашающе, но его смысл можно свести к следующему. Точка – это существительное. Она отражает какую-то вещь: место, название, слово. Вектор – это глагол. Он указывает, что нужно делать точке. Милуоки (штат Висконсин) – это точка. «Двигайтесь на тридцать миль на запад и две мили на север» – это вектор. Если вы приложите этот вектор к городу Милуоки, получите город Окономовок.
Как вам описать этот вектор, переносящий вас из Милуоки в Окономовок? Вы могли бы назвать его «вектор на запад до внешнего кольца пригородов». Приложите его к Нью-Йорку[329]
, и получите город Морристаун (штат Нью-Джерси), или, точнее, природный парк Dismal Harmony («Мрачная гармония») непосредственно к западу от города.
Вы можете перефразировать это по аналогии так: Морристаун относится к Нью-Йорку так же, как Окономовок к Милуоки, как Буанвиль-ан-Мантуа к Парижу, Сан-Херонимо-Икстапантонго к Мехико, а Фараллоновы острова (необитаемое место, бывшая свалка отходов атомной промышленности, а сейчас территория с самой большой плотностью грызунов на планете) – к Сан-Франциско.