Читаем Информационные технологии и лингвистика XXI века полностью

Основным вопросом, вставшим перед компьютерной лингвистикой с 90-х годов, когда основным направлением стала статистическая обработка текстов, оказалась проблема получения достаточно большого набора реальных лингвистических данных, чтобы произвести внятный анализ или автоматически построить грамматику. Во многих случаях у исследователей недостает данных для анализа лингвистических феноменов в результате разбросанного характера данных. Например, когда они пытаются определить вероятность для каждой из пар последовательно идущих терминов, они не могут найти лингвистических данных с какими-то из анализируемых пар, хотя сочетания подобного рода являются правильными с точки зрения языка. Один из подходов состоит в улучшении точности приближения путем статистической обработки небольших рабочих образцов.

В реальности, исследователям приходится работать с низкокачественными данными в сопоставляемых для перевода парах. Когда данные не могут быть сопоставлены, используются двуязыковые корпуса в той же предметной области. Как минимум для решения проблемы требуются словари для базовых лексиконов и быстрые компьютеры с большим объемом памяти. При этом парадигмы машинного обучения выглядят на сегодняшний день мало подходящими для целей автоматической обработки текстов.

На сегодняшний день максимальную долю российского рынка систем машинного перевода составляют продукты компаний PROMT и ABBYY (Lingvo). В основу фундамента технологии перевода PROMT были заложены формализм расширенных сетей переходов (ATN – Augmented Transition Network) и использование двух «переводческих технологий» в одном продукте – технологии машинного перевода (Machine Translation) и технологии Translation Memory. Эффект от взаимного применения двух технологий позволяет обеспечить практически 100 %-ное качество перевода при работе с повторяющимися текстами.

Программы, разработанные на основе технологии машинного перевода осуществляют связный перевод текста, используя определенные лингвистические алгоритмы. Сначала система анализирует структурные элементы входного предложения, затем преобразует его в соответствии со структурой языка и синтезирует окончательный вариант. Кроме того, для повышения качества перевода программа должна уметь распознавать устойчивые выражения, а также иметь большой словарный запас. Для перевода тематических текстов обычно требуется подключать специализированные словари. С помощью систем с технологией машинного перевода можно быстро получить черновой вариант перевода, отражающий общий смысл текста.

Во второй лекции нашей работы, посвященной описанию разнообразных программ компьютерного перевода, технология Translation Memory была подробно описана. Повторимся, что память переводов (ТМ) использует базу данных, где хранятся выполненные профессионалом переводы в виде сегментов текста оригинал-перевод. Эта технология базируется на сравнении документа, который нужно перевести, с данными, хранящимися в предварительно созданной базе переводов. Память переводов работает по принципу накопления: в процессе перевода в базе сохраняется исходный сегмент (предложение) и его перевод. При обработке нового текста, поступившего на перевод, система сравнивает каждое его предложение с сохраненными в базе сегментами. Если идентичный или подобный исходному сегмент найден, то перевод этого сегмента отображается вместе с переводом и указанием совпадения в процентах. Слова и фразы, которые отличаются от сохраненного текста, выделяются подсветкой. Таким образом, переводчику остается перевести только новые сегменты и отредактировать частично совпадающие. Каждое изменение или новый перевод сохраняются в базе. В результате необходимость в повторном переводе одного и того же предложения отпадает.

Современная компьютерная лингвистика является междисциплинарной наукой. Человека окружает очень большое количество цифровой информации; существует множество бизнес-проектов, успех которых зависит от обработки информации, эти проекты могут относиться к сфере маркетинга, политики, экономики и т. д. И очень важно уметь обращаться с этой информацией эффективно – главное не только быстрота обработки информации, но и легкость, с которой пользователь способен извлекать необходимые ему данные и создавать из них цельную картину.

Перейти на страницу:

Похожие книги

Физика для всех. Движение. Теплота
Физика для всех. Движение. Теплота

Авторы этой книги – лауреат Ленинской и Нобелевской премий академик Л.Д. Ландау и профессор А.И. Китайгородский – в доступной форме излагают начала общего курса физики. Примечательно, что вопросы атомного строения вещества, теория лунных приливов, теория ударных волн, теория жидкого гелия и другие подобные вопросы изложены вместе с классическими разделами механики и теплоты. Подобная тесная связь актуальных проблем физики с ее классическими понятиями, их взаимная обусловленность и неизбежные противоречия, выводящие за рамки классических понятий, – все это составляет сущность современного подхода к изучению физики. Новое, свежее изложение делает книгу полезной для самого широкого круга читателей.

Александр Исаакович Китайгородский , Лев Давидович Ландау

Научная литература / Физика / Технические науки / Учебники / Образование и наука
Стратегические операции люфтваффе
Стратегические операции люфтваффе

Бомбардировочной авиации люфтваффе, любимому детищу рейхсмаршала Геринга, отводилась ведущая роль в стратегии блицкрига. Она была самой многочисленной в ВВС нацистской Германии и всегда первой наносила удар по противнику. Между тем из большинства книг о люфтваффе складывается впечатление, что они занимались исключительно поддержкой наступающих войск и были «не способны осуществлять стратегические бомбардировки». Также «бомберам Гитлера» приписывается масса «террористических» налетов: Герника, Роттердам, Ковентри, Белград и т. д.Данная книга предлагает совершенно новый взгляд на ход воздушной войны в Европе в 1939–1941 годах. В ней впервые приведен анализ наиболее важных стратегических операций люфтваффе в начальный период Второй мировой войны. Кроме того, читатели узнают ответы на вопросы: правда ли, что Германия не имела стратегических бомбардировщиков, что немецкая авиация была нацелена на выполнение чисто тактических задач, действительно ли советская ПВО оказалась сильнее английской и не дала немцам сровнять Москву с землей и не является ли мифом, что битва над Англией в 1940 году была проиграна люфтваффе.

Дмитрий Владимирович Зубов , Дмитрий Михайлович Дегтев , Дмитрий Михайлович Дёгтев

Военное дело / История / Технические науки / Образование и наука