Читаем Актуальные проблемы современной лингвистики полностью

Но все это относилось к идентификации изолированных слов. Мы же попытались использовать ту же идею при «работе» с непрерывной последовательностью слов, не разделенных какими бы то ни было метками сегментации, т.е. возможности того же алгоритма оценивались применительно к распознаванию слитной речи, которая характеризуется как раз отсутствием границ между словами, образующими высказывание (синтагму). Одна из вытекающих при этом сложных проблем заключается в том, что единый процесс идентификации-сегментации предполагает нахождение правой границы слова. В нашей модели анализируемый текст считывается из файла слово за словом и записывается в строку без пробелов и знаков препинания. Начальная часть строки длиной в 7 – 9 открытых слогов представляет собой буфер, с содержимым которого работает в дальнейшем программа. Объем буфера выбран на основании имеющихся данных об объеме оперативной (кратковременной) памяти человека (7+2 слога). На этом этапе алгоритм работы программы, скорее всего, не соответствует предполагаемому алгоритму работы системы распознавания речи человеком и выбран таковым только из условия удобства программной реализации процесса.

По первому символу строки-буфера начинается процесс образования текущей когорты. Для орфографической записи при этом применяются следующие правила: (1) если первая буква не является допустимым однобуквенным словом, не содержащим ударного гласного (союзом, предлогом), то происходит только определение объема когорты, сама же когорта как набор слов не создается (это чисто программистский ход, экономящий время); если первая буква является допустимым однобуквенным словом, то из соответствующей словарной статьи в промежуточный буфер записывается слово-кандидат, а из остальных словарных статей выбираются данные об их объеме для сбора статистики; (2) заполнение когорты производится по двум первым буквам буфера-строки (или только по первой, когда это ударный гласный, поскольку по чисто техническим причинам ударные гласные представлены в текстах и в словарных статьях двухсимвольными сочетаниями: собственно гласный и знак ударения «+»; равным образом согласные тоже могут иметь двухсимвольные соответствия с учетом «ъ» или «ь»); (3) буфер слов-кандидатов заполняется до тех пор, пока N первых символов в исходном буфере совпадают хотя бы с одним словом в когорте и прекращается, когда добавление еще одного элемента создает комбинацию, не представленную в словаре; вслед за этим начинается анализ слов-кандидатов.

Правила работы с транскрипционной записью полностью аналогичны приведенным выше.

В данный момент при выборе окончательного варианта из всех слов-кандидатов принято самое простое правило: окончательным считается слово, последним занесенное в список, – при условии, что сохраняется возможность идентификации через словарь «оставшейся» цепочки. Это вполне соответствует правилу отбора, сформулированному в теории когорты: выбирается только слово, полностью и без остатка совпадающее с входной последовательностью символов.

На материале как беспробельной орфографической, так и транскрипционной записи рассмотренных текстов точность работы компьютерной сегментации через идентификацию составила более 98%. Столь высокую результативность описанных правил мы можем рассматривать как косвенное (в силу специфичности исходного материала), но убедительное подтверждение «работоспособности» алгоритма, основывающегося на основных положениях модели когорты.

Перцептивный словарь

Одна из задач нашей работы заключается в проверке выдвинутой гипотезы о существовании особого перцептивного словаря. В качестве одного из средств верификации гипотезы был использован свободный ассоциативный эксперимент, где в роли стимулов используются как словарные, так и несловарные формы слов.

Предварительный ассоциативный эксперимент в его устно-письменном варианте был ранее проведен студенткой А. Морозовой (рук. Е.В. Глазанова) на материале, включающем все финитные формы глаголов. В протоколах зафиксировано в среднем более 15% реакций, явно, непосредственно обусловленных грамматической формой глагола-стимула. В большинстве случаев это относится к парадигматическим реакциям, например, берешь – отдаешь.

Перейти на страницу:

Похожие книги

История России
История России

Издание описывает основные проблемы отечественной истории с древнейших времен по настоящее время.Материал изложен в доступной форме. Удобная периодизация учитывает как важнейшие вехи социально-экономического развития, так и смену государственных институтов.Книга написана в соответствии с программой курса «История России» и с учетом последних достижений исторической науки.Учебное пособие предназначено для студентов технических вузов, а также для всех интересующихся историей России.Рекомендовано Научно-методическим советом по истории Министерства образования и науки РФ в качестве учебного пособия по дисциплине «История» для студентов технических вузов.

Александр Ахиезер , Андрей Викторович Матюхин , И. Н. Данилевский , Раиса Евгеньевна Азизбаева , Юрий Викторович Тот

Педагогика, воспитание детей, литература для родителей / Детская образовательная литература / История / Учебники и пособия / Учебная и научная литература
Качество, эффективность, нравственность
Качество, эффективность, нравственность

Монография доктора экономических наук, профессора, Академика Академии проблем качества посвящена одной из самых острых и сложных проблем современного производства и экономики. Значение качества продукции особенно возросло в последнее время в связи с финансово-экономическим кризисом и усилением конкурентной борьбы на рынках. Отличительной особенностью книги является то, что автор рассматривает проблемы управления качеством в развитии во времени, т. е. в динамике.Автор подробно рассматривает роль и возможности факторов нравственности и этики в деятельности по качеству.Книга написана в форме доступной для понимания проблематики читателями различного уровня: бизнесменам, начинающим предпринимателям, инженерам (менеджерам) по качеству, аспирантам. Книга может быть полезной и для студентов высших учебных заведений.

Александр Владимирович Гличев

Учебники и пособия / Учебники / Управление, подбор персонала / Образование и наука / Финансы и бизнес
Основы творческой деятельности журналиста: учебное пособие
Основы творческой деятельности журналиста: учебное пособие

Черникова, Елена Вячеславовна. Основы творческой деятельности журналиста : учеб. пособие / Е.В. Черникова. — 2-е изд., испр. и доп. — М.: Школа издательского и медиа бизнеса, 2012. — 414 с. — (Artifex).ISBN 978-5-4160-0018-9Учебное пособие подготовлено в соответствии с Федеральным государственным образовательным стандартом высшего профессионального образования по направлению подготовки 031300 «Журналистика» (квалификация (степень) «бакалавр») и содержит все необходимые сведения о творческих задачах журналиста и способах их решения, а также освещает вопросы жанрообразования в современных СМИ, предлагает подходы к классификации жанров, рассматривает законодательные и этические нормы, регулирующие деятельность журналиста.Книга заинтересует студентов, специализирующихся во всех информационных отраслях (реклама, PR, медиабизнес, межкультурные коммуникации и др.).УДК 070(07) ББК 76.01я7Все права защищены. Книга не может быть воспроизведена полностью или частично в бумажном или электронном формате без письменного разрешения правообладателя.

Елена Вячеславовна Черникова , Черникова Елена Вячеславовна

Учебники и пособия / Прочая научная литература / Образование и наука