Читаем Информационные технологии и лингвистика XXI века полностью

Система LIFER/LADDER была одной из наиболее впечатляющих систем автоматизированной обработки текстов. Она была сконструирована как естественно-языковой интерфейс к базе данных кораблей ВМС США. Она использовала семантическую грамматику, в которой функционировали метки типа «КОРАБЛЬ» или «ХАРАКТЕРИСТИКА» вместо синтаксических меток по типу «существительное» или «глагол». Это означало, что система, как и SHRDLU, была тесно привязана к области, для которой была изначально сконструирована. Тем не менее, использование разработчиками семантической грамматики дало ряд преимуществ в разработке дружественного к пользователю интерфейса по сравнению с SHRDLU. Например, в систему была включена возможность определения новых словарей, определения парафразов (например, чтобы сделать возможным быстрый доступ), возможность обработки незаконченного или неполного ввода. Эти свойства сами по себе были очень впечатляющими, но исследовательская группа приступила к программе строгой оценки и опубликовала доклад, ставший настоящим сокровищем для тех, кто стремился глубоко изучать автоматическую обработку текстов. Одним из выводов доклада было то, что люди быстро подстраивались под машину и пытались использовать очень неполные предложения, заменяя нормальный естественный язык подобием неформального языка запросов.

С середины семидесятых годов во всем мире наблюдается устойчивое возрастание интереса к машинному переводу. В Москве в 1974 в институте ИНФОРМ-ЭЛЕКТРО начались работы по созданию системы франко-русского перевода (ЭТАП-1) и системы англо-русского перевода (ЭТАП-2). В том же году создается Всесоюзный центр переводов (ВЦП), в котором ряд научных коллективов работает над системами машинного перевода – АМПАР (англо-русский перевод), НЕРПА (немецко-русский перевод) и ФРАП (французско-русский перевод). С этого времени промышленные системы машинного перевода разрабатываются и широко используются в США, Европе и Японии.

Семантические системы 1970-х совершенно сознательно избегали использования синтаксической обработки, некоторые пытались вообще очистить от синтаксической информации свои системы. Синтаксис всегда рассматривался большинством лингвистов-теоретиков как основополагающая часть человеческого языка. Инженеры же увидели в синтаксисе полезный способ разрешения омонимии с относительно небольшим объемом необходимых знаний (по крайней мере, по сравнению с объемом знаний, требуемым для этой цели семантической обработкой). Теоретические лингвисты также выступали критически против всеобщего признания трансформационной (порождающей) грамматики Н. Хомского.

Результатом стали грамматики, оперирующие более детализированными синтаксическими характеристиками объектов информации (например, часть речи – существительное, лицо – третье, время – прошедшее, число – множественное и т. д.), а не одноатомные категории (глагол, существительное, прилагательное и т. д.). Эти грамматики могли дать гораздо более точный анализ предложения. С другой стороны, для детализированных характеристик необходимы гораздо более сложные методы сопоставления в поисковых алгоритмах. Отсюда такие грамматики получили название унификационных, так как сопоставление характеристик могло быть достигнуто посредством метода унификации.

Есть несколько грамматик, которые используют унификацию как главную операцию для комбинирования информации. Из них Грамматика Обобщенной Фразовой Структуры (GPSG – Generalized Phrase Structure Grammar), была одно время очень популярной, но, видимо, самым широко используемым формализмом стала Грамматика Лексических Функционалов (EFG – Eexical Functional Grammar).

В 80-е годы в большой мере формируется фундамент современного подхода к структуре машинного перевода. Благодаря росту производительности и развитию возможностей компьютеров, разработка систем машинного перевода стала реальностью. Разработка первых систем была основана на лингвистических знаниях. Но лингвистике не удалось покрыть широкий диапазон актуальных феноменов использования языка. Анализ производился для ограниченных случаев. В 80-е годы ученые инициировали разработки в области описания грамматик. Грамматики, основанные на формальных, правильно написанных текстах, не имели полной практической ценности. Только про 60 % грамматических правил, выработанных лингвистами, можно было сказать, что они работают на практике. В реальности, различные варианты в языке были слишком многочисленны.

В начале 90-х годов IBM выпустила систему статистического машинного перевода (SMT-statistical machine translation). Данная система обнаруживала ряд английских и французских выражений, которые не могли бы быть распознаны вручную, посредством «чистой» методологии машинной трансляции. Базовыми характеристиками данной системы являлись большой объем памяти и высокая производительность компьютеров, большой объем качественных пар слов для перевода (обучающие данные).

Перейти на страницу:

Похожие книги

Физика для всех. Движение. Теплота
Физика для всех. Движение. Теплота

Авторы этой книги – лауреат Ленинской и Нобелевской премий академик Л.Д. Ландау и профессор А.И. Китайгородский – в доступной форме излагают начала общего курса физики. Примечательно, что вопросы атомного строения вещества, теория лунных приливов, теория ударных волн, теория жидкого гелия и другие подобные вопросы изложены вместе с классическими разделами механики и теплоты. Подобная тесная связь актуальных проблем физики с ее классическими понятиями, их взаимная обусловленность и неизбежные противоречия, выводящие за рамки классических понятий, – все это составляет сущность современного подхода к изучению физики. Новое, свежее изложение делает книгу полезной для самого широкого круга читателей.

Александр Исаакович Китайгородский , Лев Давидович Ландау

Научная литература / Физика / Технические науки / Учебники / Образование и наука
Стратегические операции люфтваффе
Стратегические операции люфтваффе

Бомбардировочной авиации люфтваффе, любимому детищу рейхсмаршала Геринга, отводилась ведущая роль в стратегии блицкрига. Она была самой многочисленной в ВВС нацистской Германии и всегда первой наносила удар по противнику. Между тем из большинства книг о люфтваффе складывается впечатление, что они занимались исключительно поддержкой наступающих войск и были «не способны осуществлять стратегические бомбардировки». Также «бомберам Гитлера» приписывается масса «террористических» налетов: Герника, Роттердам, Ковентри, Белград и т. д.Данная книга предлагает совершенно новый взгляд на ход воздушной войны в Европе в 1939–1941 годах. В ней впервые приведен анализ наиболее важных стратегических операций люфтваффе в начальный период Второй мировой войны. Кроме того, читатели узнают ответы на вопросы: правда ли, что Германия не имела стратегических бомбардировщиков, что немецкая авиация была нацелена на выполнение чисто тактических задач, действительно ли советская ПВО оказалась сильнее английской и не дала немцам сровнять Москву с землей и не является ли мифом, что битва над Англией в 1940 году была проиграна люфтваффе.

Дмитрий Владимирович Зубов , Дмитрий Михайлович Дегтев , Дмитрий Михайлович Дёгтев

Военное дело / История / Технические науки / Образование и наука