Как работает этот фильтр? До сих пор ответа на этот вопрос нет. Однако достаточно много известно о физических свойствах речи и физиологии слуха, чтобы стали возможными некоторые осторожные суждения. Человеческая речь возникает при взаимодействии голосовых связок и «голосового тракта», к которому относятся полости гортани, рта и носа. Туго натянутые голосовые связки производят звук при прохождении между ними струи воздуха. Звук состоит из коротких импульсов, или толчков воздуха, возникающих с частотой 100 или более в секунду, причем каждый импульс содержит энергию на многих частотах. Эти импульсы вызывают колебания воздуха, заключенного в полости гортани, носа и рта. Эти полости можно настроить на разные частоты, изменяя положение языка, щек, челюсти и губ (рис. 1). В результате возникает поток импульсов, содержащих определенную группу частот, причем импульсы идут с частотой около 100 в секунду. Каждый импульс начинается в полную силу и быстро затухает, пока энергия звука не возобновится следующим импульсом (рис. 2).
Многие гласные звуки содержат волны в двух или большем числе далеко отстоящих друг от друга частотах (рис. 3 и 4).
Например, чтобы произнести гласный звук в слове «bit», необходима максимальная энергия на частотах 375 и 1700 колебаний в секунду; частоты 450 и 1700 колебаний в секунду дают гласный в слове «bet». (Эти цифры характерны для типичного мужского голоса. Для женского и детского голосов весь диапазон частот может быть выше, но слушатель принимает это во внимание.) Достигнув уха, звуки возбуждают чувствительные образования, расположенные вдоль основной (базилярной) мембраны улитки (рис. 5). Низкие частоты возбуждают образования на одном конце мембраны, высокие — на другом. Сложный звук, состоящий из нескольких частот, возбуждает несколько различных отделов мембраны. Каждое чувствительное образование на мембране связано с определенными нервными волокнами, идущими к мозгу; так, слово «bit» возбуждает одну комбинацию волокон, а слово «bet» — другую.
Если оба слова достигают уха одномоментно, то вступают в игру обе комбинации волокон и мозгу приходится решать, в каких отношениях друг с другом они находятся. Может случиться и так, что два или большее число голосов создадут такую путаницу в ухе, что мозг будет не в состоянии сконцентрировать внимание только на одном из них. Конечно, ряд специфических особенностей помогает отличить один голос от другого; это акцент, скорость речи, ее громкость или плавность. Но использовать эти особенности можно только тогда, когда известно, какие частоты характерны для каждого голоса. Таким образом, остается нерешенным вопрос: каким способом мозгу удается сконцентрировать внимание на одном голосе? Изучение искусственного воспроизведения звуков речи начало проливать некоторый свет на эту проблему.
Совместно с П. Лейдфогдом я проводил эксперименты, пользуясь прибором, разработанным Уолтером Лоуренсом. Наш вариант прибора посылает серию электрических импульсов (аналогичных импульсам от голосовых связок) через два фильтрующих контура, каждый из которых пропускает преимущественно одну частоту (рис. 6). Импульсы от одного фильтрующего контура, подобные тем, которые возникают при прохождении звуком самой большой полости голосового тракта, смешиваются с импульсами из другого контура, которые имитируют частоты, создаваемые второй по величине полостью. Вместе две последовательности волн слышны как вполне приемлемые гласные звуки, которые можно было изменять, настроив фильтры на другие частоты. Изменение частоты импульсов, питающих фильтры, меняет кажущуюся высоту или интонацию «речи»: она повышается при большей частоте импульсов и снижается при меньшей.
Когда одинаковые импульсы возбуждают оба фильтра, человек слышит звуки, вполне идентичные гласным звукам. Это происходит даже тогда, когда в одно ухо подается низкая частота, а в другое — высокая (рис. 5).
Но если в оба фильтра импульсы поступают в различном ритме, то «речь» становится невоспринимаемой и испытуемые говорят, что они слышат не один гласный звук, а два звука, идущих от двух источников (рис. 7 и 8).
Другие эксперименты по слиянию звуков в обоих ушах, выполненные К. Черри и его сотрудниками, также подтверждают идею о том, что когда ритм или модуляции одинаковы для двух звуков, то слушатель воспринимает их как один звук (рис. 9). Это позволяет предположить, что можно слушать одного человека и игнорировать речь другого прежде всего с помощью отбора из массы достигающих слуха звуков всех тех частот, которые модулируют в одном ритме. Поскольку почти невероятно, чтобы голосовые связки двух говорящих вибрировали в какой-либо момент в одном ритме, то модуляция почти всегда является важным средством раздельного восприятия двух голосов.