Анализ, синтез и восприятие речи - Джеймс Л. Фланаган
Скачать (прямая ссылка):
Несколько иной взгляд на контекст возникает в связи с акустическим окружением. Многие процессы восприятия основаны скорее на относительных, чем на абсолютных оценках физических свойств. Иными словами, физическое окружение устанавливает границы выборок в операции декодирования. Можно со-
308
ВОСПРИЯТИЕ РЕЧИ И РЕЧЕПОДОБНЫХ ЗВУКОВ
слаться на простой пример вариаций основного тона в выражениях. Относительные изменения или отклонения, вероятно, более значимы для восприятия, чем абсолютное число колебаний в секунду.
Подобные акустические соотношения демонстрировались на примере синтетической речи. Можно показать, что на опознавание одного и того же односложного слова сильно влияют границы континуума время — частота —• интенсивность, в котором помещено это слово (Лейдфоугед и Бродбент — Lade-foged and Broadbent). К примеру, один из гласных формировался как центральный элемент синтетического слова /b—t/. Это слово вставлялось в синтетические предложения с различными относительными распределениями формантных частот. В зависимости от акустических соотношений, устанавливаемых фор-мантными распределениями в остальных частях предложения, физически одно и то же синтетическое слово воспринималось по-разному: bit, bet или bat.
7.5. Единицы восприятия речи
Приведенные выше данные показывают, что восприятие речи является адаптивным процессом, в котором, по всей вероятности, процедура обнаружения подчинена выделению сигнала и цели слушания. Если слушатель сможет выявить лингвистические закономерности в звуках, то он будет в состоянии использовать накапливающуюся во времени информацию для принятия решения о том или ином звуковом элементе. Если таких закономерностей не обнаруживается, процесс принятия решения в большей степени основывается на акустических факторах данного момента. Происходят сравнение и выбор наиболее приемлемого эталона.
Мысль о том, что слушатель использует информацию, распределенную во времени, вызывает вопрос о размерах временных «частиц» восприятия речи. Весьма вероятно, что размеры элементов восприятия меняются в зависимости от цели различения и слушатель регулирует скорость обработки в зависимости от типа речевой информации. Например, если фонетическая информация мгновенно предсказывается, он может больше внимания уделить просодической информации. При различении неречевых или нелингвистических образцов процесс восприятия может существенно отличаться. Однако в любом случае информация проходит через один и тот же сенсорный преобразователь. Как упоминалось выше, дифференциальная различимость «классических» психоакустических сигналов, по-видимо-
ЕДИНИЦЫ ВОСПРИЯТИЯ РЕЧИ
309
му, отражает фундаментальные ограничения самого преобразователя и периферических органов, в то время как различение лингвистически связанных образцов, вероятно, отражает характеристики памяти и процесса переработки информации в центральной нервной системе.
Можно предполагать, что при опознавании речи требуется абсолютная идентификация звуковых элементов. Однако различимость некоторых звуков связана не столько с акустическими или даже артикуляторными факторами, сколько является следствием лингвистического опыта. Превосходная различимость элементов связной речи может существенно снизиться или вовсе потеряется в условиях изоляции этих же элементов. Прежде всего это относится к назальным согласным, которые в связной речи несут большую функциональную нагрузку (см. табл. 1.1)» но плохо распознаются в изоляции (см. табл. 7.1, раздел 7.3.1).
Определению единиц восприятия посвящено большое количество работ, и в большей части экспериментов получились несовпадающие результаты. Причина заключается, вероятно, в большом разнообразии проблемы восприятия: однозначного ответа на этот вопрос не существует. Примером одной крайности в теории восприятия является, пожалуй, проблема «отображения» (Чистович, 1962). Этот подход имеет целью выяснение вопроса, начинает ли слушатель, едва услышав начало речевого звука, формировать предварительное решение с последующей коррекцией его по мере поступления дополнительной информации или же он накапливает значительное количество данных, а затем их интерпретирует. Ответ на вопрос искался двумя путями. Во-первых, измерялось запаздывание ар-тикуляторных движений слушателя, который должен был как можно скорее повторять («отображать») слоги речи, услышанные в телефоне. Выбирались слоги либо типа «гласная — согласная—гласная» (ГСГ), либо «согласная — гласная» (СГ). Во-вторых, измерялось запаздывание при записи от руки согласных звуков услышанных слогов.
Результаты показали, что при отображении голосом запаздывание для согласных в слогах ГСГ было от 100 до 120 мсек и в слогах СГ—от 150 до 200 мсек. В слогах ГСГ слушатель, по-видимому, предвидит согласную до того, как она полностью произносится, получая достаточно большое количество информации за счет формантного перехода первоначальной гласной. Вначале он часто ошибается, но к концу звучания согласной ошибка, как правило, исправляется. Поскольку испытуемый реагирует до того, как согласная будет принята целиком (и иногда дает оценки, совершенно неприсущие его языку), выдвигается гипотеза, согласно которой в процессе слухового восприятия