Читаем Компьютерра PDA N161 (25.02.2012-02.03.2012) полностью

Успех обеспечил и правильный изначальный выбор направления для разработки системы автоматического перевода. В 90-е в мире правила одна королева - Rule-Based Translation Model, классическая модель перевода, основанная на ограниченном наборе готовых правил для некоторой пары языков. Одна из проблем RBTM - в накоплении все новых и новых правил, которые в какой-то момент просто начинают конфликтовать между собой. Анализируя предложение, мы можем применить разные комплекты правил, при этом машине неведомы приоритеты. Перевод, основанный на RBTM, как правило, не озабочен полным синтаксическим анализом: вместо него предложение делится на фреймы, на которые затем интерполируют существующие в системе правила для получения перевода. RBMT системы не учитывают семантику.

В начале XXI века усилиями Google мир подсел на иглу нового алгоритма перевода - так называемой статистической модели. Основа СМ - наличие обширной базы разнонаправленных переводов. Мы задаем статистическому движку предложение для перевода, он ищет в базе данных как в словаре варианты уже существующих переводов аналогичного текста и после незначительных изменений выдает вполне приличный результат.

Изменения не самые существенные. Предположим нам нужно перевести предложение «в комнате стоит красный стул», а в статистической базе уже есть переведенная фраза «в комнате стоит зеленый стол» - решение элементарно: берется уже существующий шаблон перевода и новые слова просто заменяются по словарю.

Поскольку в СМ используются уже готовые человеческие переводы заведомо высокого качества, то на выходе получается весьма недурственный результат, ибо для осуществления перевода не нужно погружаться в синтаксис, специфику фразеологии конкретного языка и проч.

Все замечательно, однако, лишь до тех пор, пока дело не касается переводов в направлениях с так называемым низким покрытием

(скажем, каким-нибудь, румынско-русским или тайско-венгерским).

Где брать аналоги? По словам Сергея Андреева опасность подстерегает также при уходе в предметные области на массовых направлениях, потому что параллельных текстов становится сильно меньше, чем в бытовой и разговорной тематике. Сочетание ухода в предметную область и не самого массового направления перевода приводит к слабым результатам. Скажем, IT. Казалось бы, какие сложности могут возникнуть у машинного перевода с текстом на тему информационных технологий? В самом деле - никаких, если мы занимаемся русско-английским переводом. Зато они тут же возникнут на русско-французской ниве! Статистическая база в этом направлении чрезвычайно скудная и лакуны возникают на каждом шагу.

Выход в рамках СМ для подобных ситуаций найден лишь паллиативный: работая с языками / темами низкого покрытия в качестве посредника используется английский язык. То есть сперва делается перевод с русского на английский, а затем уже с английского на, скажем, румынский, или тайский. В результате получается очень заметное снижение качества перевода.

Самое печальное, что проблема с плотностью покрытия в рамках СМ никак не решается принципиально. Единственный выход: нанять сотни тысяч переводчиков и заставить их заполнять лакуны по всем направлениям с низким статистическим покрытием. Как вы понимаете, никто это делать не сможет и не будет.

Помимо сложностей с низкой плотностью переводов по направлениям, выпадающим из узкого мейнстрима, у СМ еще множество мелких изъянов. Например, статистическая модель совершенно убого справляется с переводами имен собственных. Многие помнят о переводе Ющенко, как Януковича, а России как Канады. Отрицание (частичка «не») - это очень сложное препятствие. Частичку «не» можно правильно позиционировать в результате лингвистического анализа текста, а СМ таковым не занимается. В результате предложения, содержащие отрицание, часто переводятся движками на статистической модели с точностью до наоборот.

Как бы там ни было, ABBYY изначально отказалась от Rule Based Translation Model и замахнулась на систему компьютерного перевода нового поколения. Надо сказать, что придумывать особо ничего не требовалось. Универсальный язык понятий существует в структурной лингвистике в виде давней и несбыточной мечты еще со времен Людвига Витгенштейна. Даже Наум Хомский в своих ранних трудах лишь углублял существующую утопию.

Проект Compreno исходил из трех основополагающих посылок:

- использование качественного и бескомпромиссного синтаксического анализа.

- создание универсальной когнитивной модели языка, возможность которой определяется аксиомой о том, что люди, хоть и живут в разных условиях и говорят на разных языках, однако в массе своей мыслят одинаково. Формы выражения мысли разные, а вот понятийный аппарат совпадает.

- автоматизированное корпусное дообучение - лингвистические описания верифицируются и дополняются на основании статистической обработки корпусных данных.

Перейти на страницу:

Все книги серии Компьютерра PDA

Компьютерра PDA 03.04.2010-09.04.2010
Компьютерра PDA 03.04.2010-09.04.2010

ОГЛАВЛЕНИЕСергей Голубицкий: Голубятня: Светлее бледногоВасилий Щепетнев: Василий Щепетнёв: Цена верностиБерд Киви: Кивино гнездо: И биометрия на всех Николай Маслухин: Промзона: проект "Google-конверты" и диван-саквояжЮрий Ревич: Существуют ли государственные базы данных?Игорь Терехов: Flash посадили в "песочницу" ChromeМихаил Карпов: iPad: очереди, большие люди и хакерыЮрий Ильин: На что живёт Opera MiniВаннах Михаил: Кафедра Ваннаха: Информационные технологии и эскапизм Игорь Осколков: Что вычисляют российские суперкомпьютерыМихаил Карпов: Анатолий Вассерман: Пирамида МаслоуАндрей Письменный: Машинное обучение улучшило "Яндекс"Игорь Терехов: Проблемный BuzzВасилий Щепетнев: Василий Щепетнёв: Опоздавший к присягеИгорь Терехов: "Макхост" ушёл в оффлайнИрина Матюшонок: Почему Google отстаёт от "Яндекса"Андрей Письменный: Первые iPad, попавшие в Россию, скупают втридорогаОлег Парамонов: Первый взгляд на iPadНиколай Маслухин: Промзона: Светящиеся деньгиМихаил Карпов: Мартовский приз ReaditorialВаннах Михаил: Кафедра Ваннаха: Российская DARPA и гипотеза ФишераВиталий Губский: Надёжное железо (история и сегодняшние факты)Анатолий Вассерман: Досудебное помилованиеКрестников Евгений: Геоконтекстная реклама добралась до РоссииМихаил Карпов: В iPhone OS 4 появится многозадачностьБерд Киви: Кивино гнездо: Теневая сторона сетиНиколай Маслухин: Промзона: ножная мышьИгорь Осколков: Lenovo Thinkpad X100e – компактный ноутбук для бизнесаВасилий Щепетнев: Василий Щепетнёв: Власть и магияИгорь Терехов: Игровым приставкам настанет конецМихаил Карпов: Через три года мемристоры заменят транзисторы

Журнал «Компьютерра» , Компьютерра

Документальная литература / Прочая компьютерная литература / Прочая документальная литература / Документальное / Книги по IT
Компьютерра PDA 20.03.2010-26.03.2010
Компьютерра PDA 20.03.2010-26.03.2010

ОГЛАВЛЕНИЕВаннах Михаил: Кафедра Ваннаха: Пороки, ракеты, компьютеры Берд Киви: Кивино гнездо: Сеть на колёсахМихаил Карпов: Февральский призНиколай Маслухин: Промзона: Вязаный твиттер и дизайнерские светофорыМихаил Карпов: Samsung Forum 2010: робопылесосы NavibotАндрей Письменный: Opera наверстала отставание от других браузеровДмитрий Плесконос Развитие Интернета - один из приоритетовСергей Голубицкий: Голубятня: Непростой мальчик РобертЕвгений Крестников: Электронных денег станет больше, если их не запретятАнатолий Вассерман: Газоносные сланцыИгорь Терехов: Прощание с PalmЕвгений: Возраст честностиМихаил Карпов: Samsung Forum 2010: 3D-телевизорыВасилий Щепетнев: Василий Щепетнёв: Спецназ Леонардо в боюОлег Нечай: Ловушка номер 3D: о чём молчит рекламаЛеваков Владимир: Программы лояльности: чего не хватает российскому IT-рынку?Олег Данилов: Сколково открытий чудныхВаннах Михаил: Кафедра Ваннаха: Свобода и буржуазияРоман Георгиев: Грозовой перевал: кризис 3D-отрасли в РоссииМихаил Карпов: У новой приставки Nintendo будет стереоэкранЮрий Ревич: Политически корректные фильтрыАртём Алексеев: Виртуальная реальность нашей повседневностиИгорь Осколков: Arion рендерит световые волны параллельноОлег Нечай: Игрушечное кино: на что годятся пикопроекторыАндрей Письменный: Тег video делает Firefox устаревшим браузеромВасилий Щепетнев: Василий Щепетнёв: След жирафаАлександр Милицкий: УФАС - не указ?Анатолий Вассерман: Индивидуальный и массовый террорПоликарпов, Константин: Туманный экран PolivizorИгорь Терехов: Основатели Skype подались в инвесторыИгорь Осколков: Обзор интернет-устройства Viliv S5Михаил Карпов: Несколько вопросов по следам конференции MIXАндрей Письменный: CloudConf 2010: облачные вычисления в РоссииСергей Голубицкий: Голубятня: Миша, кока, деффкиИгорь Терехов: "Счастливый фермер" неплохо зарабатываетВаннах Михаил: Кафедра Ваннаха: Параллелизм в большом и малом мирахМихаил Карпов: The Beatles Rock Band: взгляд музыкантаРоман Георгиев: Грозовой перевал: российская 3D-анимацияЕвгений Крестников: В. Достов: "Когда мы защищаемся неизвестно от чего, платит всегда покупатель"Олег Нечай: Ёмкостные против резистивныхИгорь Терехов: Технологии будущего по версии Microsoft

Журнал «Компьютерра» , Компьютерра

Документальная литература / Прочая компьютерная литература / Прочая документальная литература / Документальное / Книги по IT
Компьютерра PDA N113 (28.05.2011-03.06.2011)
Компьютерра PDA N113 (28.05.2011-03.06.2011)

ОГЛАВЛЕНИЕСергей Голубицкий: Голубятня: Начало продажВасилий Щепетнев: Василий Щепетнёв: Переход на летние деньгиЕвгений Крестников: Первый взгляд на Fedora Linux 15Евгений Лебеденко, Mobi.ru: Технология Gyricon: забытый электронный папирусВаннах Михаил: Кафедра Ваннаха: Цифровая шарага китайского образцаОлег Нечай: Путеводитель по настольным процессорам AMD (часть 1)Игорь Осколков: Обзор ноутбука Eurocom W860CU CougarВасилий Щепетнев: Василий Щепетнёв: Приказано иметь честьДмитрий Шабанов: Отпечатки пальцев и отпечатки мозгаСергей Голубицкий: Голубятня: Юбилейное откровениеКиви Берд: Кивино гнездо: На звон БитМонетВаннах Михаил: Кафедра Ваннаха: ТМО и парад геевОлег Нечай: Путеводитель по настольным процессорам AMD (часть 2)Берд Киви: На звон БитМонет (часть 2)Василий Щепетнев: Василий Щепетнёв: Просить и не проситьКиви Берд: Кивино гнездо: Зачем вам думать?

Журнал «Компьютерра» , Компьютерра

Документальная литература / Прочая компьютерная литература / Прочая документальная литература / Документальное / Книги по IT

Похожие книги

Лаврентий Берия. Кровавый прагматик
Лаврентий Берия. Кровавый прагматик

Эта книга – объективный и взвешенный взгляд на неоднозначную фигуру Лаврентия Павловича Берии, человека по-своему выдающегося, но исключительно неприятного, сделавшего Грузию процветающей республикой, возглавлявшего атомный проект, и в то же время приказавшего запытать тысячи невинных заключенных. В основе книги – большое количество неопубликованных документов грузинского НКВД-КГБ и ЦК компартии Грузии; десятки интервью исследователей и очевидцев событий, в том числе и тех, кто лично знал Берию. А также любопытные интригующие детали биографии Берии, на которые обычно не обращали внимания историки. Книгу иллюстрируют архивные снимки и оригинальные фотографии с мест событий, сделанные авторами и их коллегами.Для широкого круга читателей

Лев Яковлевич Лурье , Леонид Игоревич Маляров , Леонид И. Маляров

Документальная литература / Прочая документальная литература / Документальное