Первый проект - сугубо российский. В его рамках мы разрабатываем платформу по доставке контекстуальной информации. Здесь следует учитывать несколько важных аспектов. Прежде всего, информация должна быть точной и содержать как можно меньше «мусора» или так называемого информационного шума. Покрытие источников информации должно быть приближено к
полному, чтобы минимизировать шанс упущения важных данных, Получаемая вами информация должна быть привязана к окружению, в котором вы находитесь; нелепо предполагать, что в офисе, в автомобиле или на рыбалке некие сведения полезны в одинаковой степени, неверно ожидать одинаковой реакции человека на поступление той или иной информации в столь разных условиях, а потому неверно и предоставлять эту информацию в одном и том же виде. Наконец, первостепенное значение имеет оперативность доставки информации и ее актуальность: прогноз погоды на вчера никому не нужен, кроме ученых-синоптиков. Все эти нюансы мы пытаемся увязать в разрабатываемой нами платформе CIDP - Contextualized Information Delivery Platform, принципы построения которой, на наш взгляд, станут основополагающими, когда существующие поисковые движки себя исчерпают.Второй проект, у которого пока нет коммерческого названия, находится на этапе технологической передачи результатов исследований, полученных в наших Лабораториях, Эта работа посвящена технологии построения моделей областей знаний. Наличие такой модели позволяет при поиске информации перейти от общего решения вопроса к частному, учитывающему потребности предприятия или индивидуума. Через использование модели области знания мы можем отсечь лишнее информационное пространство, повысить производительность и точность поиска. Повышение производительности поиска экономит время и снижает аппаратные требования к поисковой системе. Разработка проходит пилотное апробирование в нескольких американских компаниях, работающих в разных секторах рынка. Примером гибкости предлагаемого нами подхода может послужить опыт нашего сотрудничества с одной энергетической фирмой, для которой мы сформировали модель области знаний в сфере охраны окружающей среды и условий труда на производстве. Первоначальная модель, которую мы предложили заказчику, оказалась недостаточно детализированной: информация в открытых источниках была довольно скудной для данного специального случая. Заказчик передал нам информацию о специфических терминах и процессах, связанных со своей деятельностью, и в течение 36 часов наши специалисты смогли настроить модель, существенно увеличив полноту модели знаний в этой области.
В какой степени процесс настройки модели автоматизирован ? Как проходит первоначальное построение модели под конкретного пользователя : он должен обработать какие - то тексты , пройти тесты ?
- Мы стараемся сделать процесс построения модели максимально автоматизированным. Первоначально человек формирует поисковые запросы, связанные со своими интересами, и на их основе строится первый вариант модели знаний. Пользователь может оценивать полезность и полноту той или иной информации, которую выдает ему созданная модель, и в ответ на эти действия модель автоматически видоизменяется. Чем больше времени человек или компания «тренирует» свою модель области знаний, тем в большей степени она отвечает требованиям потребителя.А каков ваш третий проект ?
- Это совместный проект с тремя другими Лабораториями HP - одной китайской и двумя американскими. Он, как нам кажется, будет иметь гораздо большую научную значимость. Мы хотим эффективнее обрабатывать информацию, в том числе информацию на естественном языке, хотим научиться удалять неоднозначности из текстов, выявлять смысловые отношения между понятиями, которые имеются в тексте.
В некоторых из этих технологий преуспели китайские исследователи, в других - российские. Американцы разрабатывали методы и алгоритмы, которые архитектурно расположены ближе к «железу». Мы хотим попытаться объединить эти технологии, чтобы добиться более быстрого и точного поиска информации.
Решением подобных проблем, с тем или иным успехом, в мире занимаются несколько групп и компаний. Чтобы проиллюстрировать сложность этой работы, приведу два примера. Допустим, нужно выяснить, кто знал что-то в такой-то момент времени? Так вот дать однозначный ответ, сформировав его из моря информационных источников, очень непросто, Второй элементарный пример. Слово «платформа» может иметь разное смысловое значение: железнодорожная платформа, программная платформа, туфли на платформе, политическая платформа и т. д. Как автоматически устранить смысловую неоднозначность употребления слова «платформа» в некотором текстовом файле? А как это делать, учитывая разные языки?