Читаем Актуальные проблемы современной лингвистики полностью

Рассмотрим указанные и иные относящиеся к ним вопросы в определенной последовательности. Для начала зафиксируем исходные позиции, которые заключаются, по-видимому, в следующем.

Моделирование процессов восприятия речи (во всяком случае, на материале русского языка) включает в себя такие подготовительные этапы, как:

• формирование представительного корпуса текстов (на начальном этапе – в орфографической записи) с акцентуацией словоформ и разметкой согласно специально разработанной системы аннотирования;

• создание, на базе корпуса текстов, словаря для моделирования восприятия речи; единицей словаря выступает словоформа с индексом частотности.

На настоящий момент общий объем нашего корпуса – 1 031 920 словоупотреблений.

На основании подкорпуса объемом 322 тысячи словоупотреблений организован частотный словарь словоформ, включающий 63 742 единицы и словарь фонетических слов объемом 84 174 единицы. Этот подкорпус имеется также в транскрибированном виде. Автоматическое транскрибирование текстов осуществлялось с помощью версии фонологического транскриптора на базе кириллицы (автор программы А.В. Венцов).

В данной статье мы попытались отразить как методологический подход, так и основные направления исследований авторского коллектива в заявленной области.

Компьютерное моделирование сегментации и идентификации графической записи текста

Наличие корпуса и словаря словоформ позволило осуществить компьютерное моделирование сегментации графической беспробельной записи текста через идентификацию, т.е. путем сличения с единицами словаря. Мы исходим из того, что подобная процедура на материале «сплошной» графической записи может рассматриваться как некоторое приближение к работе с материалом звучащего текста, а используемые принципы компьютерного моделирования до некоторой степени соответствуют процессам восприятия речи человеком. Сделанный акцент на процедуре сегментации через идентификацию ни в коей мере не означает отказ от исследования автономного механизма сегментации (независимой от идентификации), но лишь признание относительно небольшого удельного веса автономной сегментации на слова в восприятии речи (подробнее см. об этом <...>).

Существенно отметить, что в большинстве ранних работ, выполненных в русле «модели когорты», материалом, подлежащим распознаванию, выступали изолированные слова – соответственно проблема сегментации вообще не возникала. В отличие от этого, наш алгоритм принципиально нацелен на обработку слитной речи – на данной стадии исследования в ее графическом представлении, а именно орфографической и транскрипционной (в терминах фонем) записей. В основу алгоритма положено упрощенное предположение о том, что в буфер памяти слушающего сведения о символах, составляющих экспонент слова, поступают последовательно во времени и, соответственно, происходит накопление информации, обеспечивающей выбор подходящего слова из словаря.

Сам процесс выбора начинается сразу же, как только в буфере появляются первые один-два символа. По ним из словаря выбираются все подходящие слова – т.е. начинающиеся на тот же символ или последовательность символов слова, которые и образуют «когорту». По мере поступления в буфер следующих символов, из когорты удаляются все слова, не согласующиеся по началу с имеющейся в буфере цепочкой, и процесс этот продолжается до тех пор, пока в когорте не останется одно-единственное слово, которое и будет считаться идентификатором распознаваемого отрезка текста.

Создатели «модели когорты» предполагали, что по мере накопления информации о фонемном составе слова будет резко сокращаться объем когорты и процесс идентификации должен сходиться достаточно быстро и эффективно (особенно если принять во внимание возможность априорного контекстного ограничения словаря, из которого производится начальная выборка когорты, что обычно не учитывается). Сделанные нами самые предварительные расчеты для русского языка показали, что объем выборки действительно стремительно сокращается по мере появления во входном буфере все новых фонем, особенно если при составлении когорты принять во внимание ритмическую структуру распознаваемого слова.

Перейти на страницу:

Похожие книги

История России
История России

Издание описывает основные проблемы отечественной истории с древнейших времен по настоящее время.Материал изложен в доступной форме. Удобная периодизация учитывает как важнейшие вехи социально-экономического развития, так и смену государственных институтов.Книга написана в соответствии с программой курса «История России» и с учетом последних достижений исторической науки.Учебное пособие предназначено для студентов технических вузов, а также для всех интересующихся историей России.Рекомендовано Научно-методическим советом по истории Министерства образования и науки РФ в качестве учебного пособия по дисциплине «История» для студентов технических вузов.

Александр Ахиезер , Андрей Викторович Матюхин , И. Н. Данилевский , Раиса Евгеньевна Азизбаева , Юрий Викторович Тот

Педагогика, воспитание детей, литература для родителей / Детская образовательная литература / История / Учебники и пособия / Учебная и научная литература
Качество, эффективность, нравственность
Качество, эффективность, нравственность

Монография доктора экономических наук, профессора, Академика Академии проблем качества посвящена одной из самых острых и сложных проблем современного производства и экономики. Значение качества продукции особенно возросло в последнее время в связи с финансово-экономическим кризисом и усилением конкурентной борьбы на рынках. Отличительной особенностью книги является то, что автор рассматривает проблемы управления качеством в развитии во времени, т. е. в динамике.Автор подробно рассматривает роль и возможности факторов нравственности и этики в деятельности по качеству.Книга написана в форме доступной для понимания проблематики читателями различного уровня: бизнесменам, начинающим предпринимателям, инженерам (менеджерам) по качеству, аспирантам. Книга может быть полезной и для студентов высших учебных заведений.

Александр Владимирович Гличев

Учебники и пособия / Учебники / Управление, подбор персонала / Образование и наука / Финансы и бизнес
Основы творческой деятельности журналиста: учебное пособие
Основы творческой деятельности журналиста: учебное пособие

Черникова, Елена Вячеславовна. Основы творческой деятельности журналиста : учеб. пособие / Е.В. Черникова. — 2-е изд., испр. и доп. — М.: Школа издательского и медиа бизнеса, 2012. — 414 с. — (Artifex).ISBN 978-5-4160-0018-9Учебное пособие подготовлено в соответствии с Федеральным государственным образовательным стандартом высшего профессионального образования по направлению подготовки 031300 «Журналистика» (квалификация (степень) «бакалавр») и содержит все необходимые сведения о творческих задачах журналиста и способах их решения, а также освещает вопросы жанрообразования в современных СМИ, предлагает подходы к классификации жанров, рассматривает законодательные и этические нормы, регулирующие деятельность журналиста.Книга заинтересует студентов, специализирующихся во всех информационных отраслях (реклама, PR, медиабизнес, межкультурные коммуникации и др.).УДК 070(07) ББК 76.01я7Все права защищены. Книга не может быть воспроизведена полностью или частично в бумажном или электронном формате без письменного разрешения правообладателя.

Елена Вячеславовна Черникова , Черникова Елена Вячеславовна

Учебники и пособия / Прочая научная литература / Образование и наука