Читаем Журнал «Компьютерра» №30 от 23 августа 2005 года полностью

Компонента со смыслом орудия действия (инструментив) имеет форму: имен., из + род., с +род., в + вин., на + вин., твор., на + пред. Вот несколько лексических примеров для этой компоненты: мяч, который разбил окно; напильником, которым обрабатывают; на скрипке и т. п. Таких элементарных конструктивно-смысловых компонент для русского предложения насчитывается несколько сотен, и у каждой из них своя морфологическая форма. В результате любую грамматическую конструкцию, которую можно представить в виде комбинации связанных между собой синтаксем, в дальнейшем можно факторизовать (разделить) на данные (слова) и сущности (названия компонент), а также указать схему связей между сущностями (подобие полного синтаксического дерева предложения). По сути, это означает, что любой связный текст может быть представлен в виде иерархической БД. Возможность факторизации текста на естественном языке имеет далеко идущие последствия и для развития других технологий, работающих с текстом как с данными, — в частности, для машинного перевода , text mining, контекстного анализа и пр.

Иерархические модели данных хорошо известны и изучены. Самый известный пример — реестр ОС MS Windows. Использование иерархической модели позволяет строить более сложные индексы, нежели в реляционных БД. Исторически эти модели были первой структурой БД и получили широкое распространение в эпоху мэйнфреймов. Для подобных баз были созданы мощные языки запросов, а по быстродействию они до сих пор вне конкуренции. Реляционные БД со временем оттеснили иерархические, но не факт, что не произойдет частичный реверс.

В принципе, запаковать иерархические данные в реляционную базу нетрудно. Для этого рядом с основной таблицей строится триггером таблица транзитивного замыкания, содержащая все пары предок-потомок, где из предка существует путь в потомки. Несколько ресурсоемко и по быстродействию не то, но работает.

Как же осуществляется интеллектуальный поиск в такой базе данных? Предположим, что нас интересует информация о девушке, играющей по утрам на арфе. Такой запрос можно составить и на естественном языке, и тот же анализ компонент выделит в нем компоненту со значением времени (по утрам) и орудийную компоненту (на арфе). При поиске фрагменты текста, где, например, «девушка по утрам слушала игру на арфе», будут игнорироваться, так как там к игре на арфе относится не орудийная компонента, а компонента сенсорного восприятия. Вот такая избирательность и логичность.

Понятно, что для интеллектуального поиска конструирование модели запроса представляет собой серьезную задачу. Но при указанном подходе вполне реально получать ответы на любые запросы по смыслу документа.

Вот и весь краткий сказ о поиске. Разумеется, из-за недостатка места и времени многое опущено. Но ясно, что существующие сегодня поисковые сервисы позволяют найти все. А завтра, будем надеяться, появятся и те, что из всего найденного выдадут действительно необходимое.


Крупнейшие поисковые сервисы — Google, Yahoo! и MSN — к попыткам научить поисковые движки понимать запросы пользователей и документы видимого интереса не испытывают (вполне возможно, что причины их равнодушия к этим разработкам схожи с соображениями Александра Садовского, изложенными в предыдущей врезке). Интернет-пользователи привыкли к особенностям поисковых машин, знают их сильные и слабые стороны и по большей части удовлетворены имеющимися возможностями. Если в ближайшие несколько лет в поисковых технологиях и появятся революционные качественные изменения, то инициатором их появления станут, скорее всего, не известные лидеры рынка, а компании, которые обыватель с поиском вообще не связывает. В частности, очень активно сейчас развиваются корпоративные поисковые сервисы, которым зачастую ставится задача не только найти похожий по смыслу документ, но и проанализировать его, найти документы с ним связанные, и т. д. И здесь привычным поиском по ключевым словам не обойдешься.

Над технологией, способной обойти привычные ограничения, уже несколько лет работает исследовательский центр IBM. В августе этого года корпорация даже пообещала выложить в Сеть для свободной загрузки исходные коды своей платформы UIMA (Unstructured Information Management Architecture, www.alphaworks.ibm.com/tech/uima).

Информационные агентства поспешили заявить о том, что на смену поиску по ключевым словам приходит поиск по понятиям (key facts вместо key words), однако UIMA поиск по ключевым словам вовсе не отменяет (скорее, дополняет);

является не готовым приложением, а основой для построения специализированных программ анализа данных;

сейчас — после четырех лет разработки — все еще находится в начальной стадии развития, хотя пилотные проекты на базе UIMA существуют.

Перейти на страницу:

Все книги серии Компьютерра

Похожие книги

«Если», 1998 № 10
«Если», 1998 № 10

ДЭВИД БРИН. ДЕЛО ПРАКТИКИМодель мира, придуманная Д. Брином, удивит даже самых искушенных знатоков фантастики.Дж. Дж. ХЕМРИ. ЕСЛИ ЛЕГОНЬКО ПОДТОЛКНУТЬ…Отправляемые на Марс исследовательские аппараты гибнут один за другим. В чем причина? Вы не поверите…Василий ГОЛОВАЧЕВ. НЕВЫКЛЮЧЕННЫЙГероя рассказа постигает странная форма амнезии: из его памяти исчезают книги, знаменитые актеры, исторические персонажи и целые государства.Фред САБЕРХАГЕН. ОБМЕН РОЛЯМИ«Наш» агент отправляется в Лондон XIX века, чтобы нейтрализовать вражеского андроида, угрожающего будущему всего человечества.Бен БОВА. ВОПРОСНи одна угроза инопланетян не смогла бы привести человечество в такое смятение, как это мирное предложение…Эдуард ГЕВОРКЯН, Николай ЮТАНОВ. НИЩИЕ ДУХОМ НЕ СМОТРЯТ НА ЗВЕЗДЫГрозит ли нам вырождение, если мы забудем о космической миссии человечества?Михаил ЮГОВ. ЭЛЕМЕНТАРНО, ВАТСОН?О феномене Шерлока Холмса рассуждает психолог.ВЛ.ГАКОВ. ВОСХОЖДЕНИЕ ДЭВИДА БРИНАЗнаменитый фантаст до сих пор сожалеет, что не стал ученым или инженером.БАНК ИДЕЙФзнтезийная задача оказалась неожиданно трудной для участников традиционного конкурса.Юрий БРАЙДЕР, Николай ЧАДОВИЧ. «ХОРОШУЮ ИСТОРИЮ ЖАЛКО ОБРЫВАТЬ»На вопросы читателей отвечают известные белорусские писатели Юрий Брайдер и Николай Чадович.ПОЛЕМИКАУ читателя есть претензии к нашему автору… У автора — к читателю!КУРСОРЧто еще новенького в мире фантастики?РЕЦЕНЗИИЧто еще новенького в книжном море?ПЕРСОНАЛИИСпециально для любителей подробностей.

Фред Саберхаген , Вл. Гаков , Журнал «Если» , Василий Васильевич Головачёв , Николай Ютанов

Проза / Журналы, газеты / Фантастика / Научная Фантастика / Повесть
«Если», 2002 № 08
«Если», 2002 № 08

Кевин АНДЕРСОН. МАСКАРАД-КЛУБЭтим подросткам пророчат большое будущее, но лишь в том случае, если они сумеют выйти из себя.Филип ДЖЕННИНГС. ПУТЬ В РЕАЛЬНОСТЬОни могут принимать самые невероятные обличья, они готовы терраформировать целые планеты, но не способны изменить человеческую природу.Дэвид МАРУСЕК. СВАДЕБНЫЙ АЛЬБОМВам не приходилось задумываться: человек вы или бинарная система?Майкл СУЭНВИК. ДЕМОН ИЗ СЕТИ…или Кибершариков при дворе королевы Глорианы.Саймон ИНГС. ВДВОЕМВесьма радикальный способ мирного сосуществования. Впрочем, как выясняется, не такого уж мирного.Джеффри ЛЭНДИС. ДОЛГАЯ ПОГОНЯИ все это лишь для того, чтобы возвратить в лоно коллективного разума одну заблудшую душу.Брюс СТЕРЛИНГ. HOMO SAPIENS ОБЪЯВЛЕН ВЫМЕРШИМСобытие, о котором так долго говорили фантасты, свершилось.ВИДЕОДРОМТелесериалы: полжизни у экрана… Столетие кинофантастики… Мечтают ли андроиды об экранизации?Дмитрий БАЙКАЛОВ, Андрей СИНИЦЫН. ALTER EGO, ИЛИ СОВРЕМЕННЫЙ ФРАНКЕНШТЕЙНА ведь авторы всего-навсего хотели рассказать об искусственной личности…Сергеи ЛУКЬЯНЕНКО. ВЫПАРЕННЫЕ СЮЖЕТЫИздательство «Новая Космогония» в поисках реальности.Сергей НЕКРАСОВ. ПАРАДОКСЫ СУДЬБЫЕще бы — если упаковать в одну книгу Дилэни, Херберта и Винджа.РЕЦЕНЗИИПейзаж довольно ровный. Но, как говаривали наши литературно образованные предки, встречаются некоторые всхолмления.Евгений ХАРИТОНОВ. ФОНОТЕКА ИМЕНИ АЙЗЕКА АЗИМОВАА интересно, что бы выбрал сам мэтр?ЭКСПЕРТИЗА ТЕМНовая рубрика журнала.КУРСОРВсе ушли. Фэндом остался.АЛЬТЕРНАТИВНАЯ РЕАЛЬНОСТЬСегодня в нашем конкурсе два победителя.ПЕРСОНАЛИИСтарые знакомые и новые имена.

Журнал «Если» , Брюс Стерлинг , Глеб Анатольевич Елисеев , Владимир Гаков , Екатерина Шилина

Журналы, газеты / Фантастика / Научная Фантастика