Наша задача состояла в измерении амплитудно-временных характеристик речи, полученных с помощью логарифмического самописца уровня электроакустических колебаний типа Н-110. С этой целью осциллограмма огибающей речевого потока разбивалась на участки, соответствующие максимумам (пикам) амплитудной модуляции. При этом максимумы, имеющие уровень менее чем 2 дБ, в расчет не принимались. Далее межпиковые интервалы АМ измерялись, и составлялись гистограммы распределения межпиковых интервалов на всем отрезке речи каждого диктора.
Всего было исследовано восемнадцать дикторов: восемь русских, десять иностранных (четыре немецких, два шведских, четыре английских). Длительность анализируемых отрезков речи составляла три минуты. В гистограммах временные характеристики максимумов АМ были преобразованы в частотные согласно выражению
Результаты измерений представлены семейством кривых для русских дикторов на рис. 3, для иностранных – на рис. 4.
Кривые являются вероятностными характеристиками речи, то есть отражают вероятность появления в потоке речи пиков АМ с определенной частотой повторения. Несмотря на индивидуальные различия, в речи (как русской, так и иностранной) преобладает АМ с частотой 4–5 Гц, соответствующая средним временным интервалам 250–200 мс. Это приблизительно совпадает с областью средних длительностей ударных русских гласных – 230 мс между двумя мягкими согласными, 150 мс между двумя твердыми согласными [Бондарко, 1964]. Длительность же согласных примерно на порядок меньше длительности гласных. Таким образом, исследования подтверждают предположение, что АМ речи в общем виде является отражением процесса слогообразования.
Рис. 4.
Вероятность встречаемости АМ разной частоты в речи иностранных дикторов.(Следует отметить, что слогоделение является одним из самых сложных вопросов фонетики и решение его существенно затрудняется зависимостью от лингвистических особенностей разных языков, при которых слоговая граница обнаруживается как необходимое условие восприятия речевого процесса. Невозможность механического рассечения речи на слоги без учета законов конкретных языков признается большинством исследователей [Зиндер, 1956; Miller, 1962; Бондарко и др., 1966] и порождает большие трудности при автоматическом распознавании речи. Поэтому мы отдаем себе отчет в том, что исследованные нами АМ характеристики речи следует рассматривать не как слоги или фонемы, выделяемые слухом в качестве минимальных единиц речевого потока, а как некоторый акустический коррелят процесса артикуляции, находящийся в определенной зависимости от слогообразования.)
С точки зрения задач настоящей работы представляет интерес сопоставление статистических характеристик АМ речи с чувствительностью слуха к АМ (рис. 5).
Рис. 5.
Соответствие максимальной чувствительности слухового анализатора человека к восприятию АМ звука с областью наиболее вероятной частоты АМ речи.Область минимума порогов, то есть наибольшая чувствительность слуха человека к АМ, 4–6 Гц (т %) совпадает с областью наиболее вероятной частоты АМ в речевом сигнале (4–5 Гц, р %). Был вычислен коэффициент корреляции между этими двумя кривыми, коэффициент оказался равным 0,78, что говорит о достаточно высокой степени корреляции между ходом этих двух кривых (формула 3):
где
Таким образом, результаты работы подтвердили высказанную в начале статьи мысль об определенной согласованности характеристик слухового анализатора с акустическими характеристиками речи. Естественная целесообразность такого согласования является достаточно очевидной ввиду наилучшего выделения и восприятия слухом речевого сигнала на фоне всевозможных акустических помех. Можно полагать, что подобное согласование явилось следствием длительного эволюционного развития человека и приспособления его слуха к акустике речи. Полученные результаты согласуются с данными о повышенной избирательной чувствительности анализаторных систем живых организмов к сигналам, имеющим для них жизненно важное значение [Гершуни, 1968, 1973].