Читаем Форма реальности. Скрытая геометрия стратегии, информации, общества, биологии и всего остального полностью

Для больших массивов данных двумерного пространства редко бывает достаточно. Группа специалистов Google под руководством Томаша Миколова разработала гениальное математическое устройство Word2vec, которое можно назвать картой всех слов. Нам больше не нужно полагаться на студентов и карточки, чтобы собрать информацию о том, какие слова сочетаются между собой. Программа Word2vec, обученная на наборе текстов из Google News объемом шесть миллиардов слов, присваивает каждому английскому слову точку в трехсотмерном пространстве. Нарисовать это трудно, но помните, что точно так же, как точка в двумерном пространстве задается двумя числами (широтой и долготой), точка в трехсотмерном пространстве – это всего лишь список из 300 чисел: долгота, широта, высота, мелкота, густота, прямота, частота, круглота и т. д. и т. п., насколько вам поможет словарь рифм. В трехсотмерном пространстве тоже есть понятие расстояния, которое не особо отличается от известного нам расстояния на плоскости[328]. Цель Word2vec – разместить похожие слова в точках, находящихся недалеко друг от друга.

Что делает слова похожими? Вы можете представить, что у каждого слова есть облако соседей – слов, которые часто появляются вместе с ним в наборе текстов Google News. В первом приближении Word2vec расценивает два слова как похожие, если их облака соседей сильно перекрываются. Во фрагменте текста, окружающего слова glamour («очарование»), runway («подиум») или jewel («драгоценность»), вы можете ожидать найти слова stunning

(«оглушительный, ошеломительный») или breathtaking («захватывающий»), но не trigonometry («тригонометрия»). А потому слова stunning и breathtaking, в облаках которых встречаются общие слова glamour, runway и jewel
, можно считать похожими, отражая тот факт, что эти два почти синонимичных слова часто встречаются в одинаковых контекстах. Word2vec ставит их на расстоянии 0,675 друг от друга. На самом деле из миллиона слов, которые умеет кодировать Word2vec, слово breathtaking – ближайшее к слову stunning. Для сравнения: расстояние от stunning до trigonometry составляет 1,403.

Как только у нас появляется представление о расстояниях, можно говорить об окружностях и кругах. (Хотя, возможно, находясь в трехсотмерном пространстве, было бы лучше говорить об их многомерных аналогах – сферах и шарах.) Круг радиуса 1 вокруг слова stunning содержит 43 слова, в том числе spectacular

(«зрелищный, эффектный»), astonishing («изумительный, поразительный»), jaw-dropping («крайне удивительный, феерический») и exquisite («изумительный, изысканный»). Машина явно улавливает нечто в этом слове, включая то, что оно может обозначать как красоту, так и удивление. Я должен отметить, что тут не происходит никакого численного выделения смысла слов. Это было бы настоящим подвигом. Вся стратегия строится вовсе не для этого. Расстояние от слова hideous («страшный, омерзительный») до stunning всего 1,12; хотя они почти противоположны по значению, вы вполне можете представить, что они часто появляются в общем контексте, например: «Этот свитер реально __________». Круг слов радиусом 0,9 от teh
включает слова ther, hte, fo, tha, te, ot и thats – это даже не слова, не то что не синонимы, однако Word2vec правильно распознает, что все они могут появляться в контекстах с большим количеством опечаток.

Нам нужно поговорить о векторах. Формальное определение этого термина выглядит устрашающе, но его смысл можно свести к следующему. Точка – это существительное. Она отражает какую-то вещь: место, название, слово. Вектор – это глагол. Он указывает, что нужно делать точке. Милуоки (штат Висконсин) – это точка. «Двигайтесь на тридцать миль на запад и две мили на север» – это вектор. Если вы приложите этот вектор к городу Милуоки, получите город Окономовок.

Как вам описать этот вектор, переносящий вас из Милуоки в Окономовок? Вы могли бы назвать его «вектор на запад до внешнего кольца пригородов». Приложите его к Нью-Йорку[329], и получите город Морристаун (штат Нью-Джерси), или, точнее, природный парк Dismal Harmony («Мрачная гармония») непосредственно к западу от города.



Вы можете перефразировать это по аналогии так: Морристаун относится к Нью-Йорку так же, как Окономовок к Милуоки, как Буанвиль-ан-Мантуа к Парижу, Сан-Херонимо-Икстапантонго к Мехико, а Фараллоновы острова (необитаемое место, бывшая свалка отходов атомной промышленности, а сейчас территория с самой большой плотностью грызунов на планете) – к Сан-Франциско.

Перейти на страницу:

Все книги серии Библиотека фонда «Эволюция»

Происхождение жизни. От туманности до клетки
Происхождение жизни. От туманности до клетки

Поражаясь красоте и многообразию окружающего мира, люди на протяжении веков гадали: как он появился? Каким образом сформировались планеты, на одной из которых зародилась жизнь? Почему земная жизнь основана на углероде и использует четыре типа звеньев в ДНК? Где во Вселенной стоит искать другие формы жизни, и чем они могут отличаться от нас? В этой книге собраны самые свежие ответы науки на эти вопросы. И хотя на переднем крае науки не всегда есть простые пути, автор честно постарался сделать все возможное, чтобы книга была понятна читателям, далеким от биологии. Он логично и четко формулирует свои идеи и с увлечением рассказывает о том, каким образом из космической пыли и метеоритов через горячие источники у подножия вулканов возникла живая клетка, чтобы заселить и преобразить всю планету.

Михаил Александрович Никитин

Научная литература
Ни кошелька, ни жизни. Нетрадиционная медицина под следствием
Ни кошелька, ни жизни. Нетрадиционная медицина под следствием

"Ни кошелька, ни жизни" Саймона Сингха и Эдзарда Эрнста – правдивый, непредвзятый и увлекательный рассказ о нетрадиционной медицине. Основная часть книги посвящена четырем самым популярным ее направлениям – акупунктуре, гомеопатии, хиропрактике и траволечению, а в приложении кратко обсуждаются еще свыше тридцати. Авторы с самого начала разъясняют, что представляет собой научный подход и как с его помощью определяют истину, а затем, опираясь на результаты многочисленных научных исследований, страница за страницей приподнимают завесу тайны, скрывающую неутешительную правду о нетрадиционной медицине. Они разбираются, какие из ее методов действенны и безвредны, а какие бесполезны и опасны. Анализируя, почему во всем мире так широко распространены методы лечения, не доказавшие своей эффективности, они отвечают не только на вездесущий вопрос "Кто виноват?", но и на важнейший вопрос "Что делать?".

Саймон Сингх , Эрдзард Эрнст

Домоводство / Научпоп / Документальное
Введение в поведение. История наук о том, что движет животными и как их правильно понимать
Введение в поведение. История наук о том, что движет животными и как их правильно понимать

На протяжении всей своей истории человек учился понимать других живых существ. А коль скоро они не могут поведать о себе на доступном нам языке, остается один ориентир – их поведение. Книга научного журналиста Бориса Жукова – своего рода карта дорог, которыми человечество пыталось прийти к пониманию этого феномена. Следуя исторической канве, автор рассматривает различные теоретические подходы к изучению поведения, сложные взаимоотношения разных научных направлений между собой и со смежными дисциплинами (физиологией, психологией, теорией эволюции и т. д.), связь представлений о поведении с общенаучными и общемировоззренческими установками той или иной эпохи.Развитие науки представлено не как простое накопление знаний, но как «драма идей», сложный и часто парадоксальный процесс, где конечные выводы порой противоречат исходным постулатам, а замечательные открытия становятся почвой для новых заблуждений.

Борис Борисович Жуков

Зоология / Научная литература

Похожие книги

Тринадцать вещей, в которых нет ни малейшего смысла
Тринадцать вещей, в которых нет ни малейшего смысла

Нам доступны лишь 4 процента Вселенной — а где остальные 96? Постоянны ли великие постоянные, а если постоянны, то почему они не постоянны? Что за чертовщина творится с жизнью на Марсе? Свобода воли — вещь, конечно, хорошая, правда, беспокоит один вопрос: эта самая «воля» — она чья? И так далее…Майкл Брукс не издевается над здравым смыслом, он лишь доводит этот «здравый смысл» до той грани, где самое интересное как раз и начинается. Великолепная книга, в которой поиск научной истины сближается с авантюризмом, а история научных авантюр оборачивается прогрессом самой науки. Не случайно один из критиков назвал Майкла Брукса «Индианой Джонсом в лабораторном халате».Майкл Брукс — британский ученый, писатель и научный журналист, блистательный популяризатор науки, консультант журнала «Нью сайентист».

Майкл Брукс

Публицистика / Зарубежная образовательная литература, зарубежная прикладная, научно-популярная литература / Прочая научная литература / Образование и наука / Документальное