booksshare.net -> Добавить материал -> Медицина -> Чистович Л.А. -> "Физиология речи. Восприятие речи человеком" -> 12

Физиология речи. Восприятие речи человеком - Чистович Л.А.

Чистович Л.А. , Венцов А. В., Гранстрем М.П. Физиология речи. Восприятие речи человеком — Л.: Наука, 1976. — 388 c.
Скачать (прямая ссылка): fizrech1976.djvu

Предыдущая << 1 .. 6 7 8 9 10 11 < 12 > 13 14 15 16 17 18 .. 159 >> Следующая

Таким образом, первый этап работ по автоматическому распознаванию речи позволил проанализировать задачу и выявить
30
несколько узловых вопросов, без решения которых практически невозможно продолжать работу. К ним относится определение системы полезных признаков сигнала, определение набора распознаваемых образов (фонемы или варианты фонем), выяснение отношений между фонемами (вариантами фонем) и отрезками зву нового потока.
Можно видеть, что все перечисленные вопросы находятся за пределами общей теории распознавания образов, их решение требует выяснения тех частных принципов кодирования и декодирования информации, которые характерны именно для речевой коммуникации.
Очевидно, что для получения нужных сведений необходимо обратиться к исследованию и моделированию деятельности или источника речевого сигнала (системы речеобразования), или приемника речевого сигнала (системы восприятия).
1.4.2. «МОТОРНАЯ ТЕОРИЯ»
И «АНАЛИЗ С ПОМОЩЬЮ СИНТЕЗА»
До последнего времени существовала надежда на то, что ключ к решению проблемы автоматического распознавания речи лежит в изучении речеобразования. Подход этот легко объясним, если учесть, что наиболее общее определение сигнала состоит в том, что он является процессом, переносящим сведения о состоянии порождающей его системы [14°].
Значительные усилия исследователей были направлены на разработку методов, позволяющих с достаточной точностью восстанавливать по текущим значениям речевого сигнала текущие значения параметров передаточной функции речевого тракта и характеристики источника возбуждения [181, 182, 19°]. За последние годы на этом пути были достигнуты весьма существенные успехи [376].
Казалось, что остается сделать еще один шаг и восстановить по картине изменения состояния тракта во времени те сигналы управления — моторные команды, которые вызвали эти изменения состояния.
На перспективность такого подхода указывала, казалось бы, и весьма популярная примерно 10 лет назад моторная теория восприятия речи [350] (см. обзоры [40, 339]). Моторная теория постулировала, что, воспринимая речевой сигнал, слушатель определяет моторные команды, которые необходимо применить для создания аналогичного сигнала, и запоминает далее уже не акустическое изображение сигнала, а последовательность этих моторных команд.2
1 Следует заметить, что экспериментальные факты, на которых основывалась моторная теория, были в равной мере совместимы с представлением,
31
Привлекательность моторной теории для специалистов, занимающихся проблемой автоматического распознавания речи, заключалась в том, что моторные команды можно било в первом приближении отождествить со ступенчатыми импульсами управления, характеризующимися всего двумя параметрами — временем появления ступеньки и ?е величиной.
Рассматривая движение управляемого артикуляторного органа как отклик инерционного звена на ступенчатое возмущение и считая, что параметры этого звена постоянны, можно было надеяться составить модель, описывающую преобразование управляющих команд во временную картину изменения конфигурации речевого тракта и соответствующую ей временную картину изменений параметров тракта как акустической системы.
Если такая модель создана, то появляется возможность применить метод анализа с помощью синтеза, т. е. записать восстановленную по речевому сигналу картину изменений параметров речевого тракта во времени и подобрать такие значения управляющих команд в модели, при которых отклик модели будет наилучшим образом соответствовать реально наблюдавшейся картине. Естественно, что реализация такого метода возможна лишь при использовании ЭВМ. Метод требует предварительного запоминания изображения сигнала, параметров тракта — как функции времени, — он включает поиск одновременно по многим переменным наилучшей аппроксимирующей функции.
Важно, что при таком подходе фонемы существуют как дискретная последовательность лишь на уровне сигналов управления. Если управляющие ступенчатые импульсы быстро следуют друг за другом, то конфигурация тракта может вообще не достигать стационарных «целевых» состояний. В случае метода анализа с помощью синтеза это не является препятствием — для аппроксимации используются переходные участки процесса.
Рассмотрение фонемы как группы моторных команд, адресованных разным артикуляторным органам, открывало также, как казалось, принципиальную возможность параллельного поиска команд, относящихся к гласным и согласным. Факт переслаивания артикуляции гласных и согласных, известный как эффект коарти-куляции, является одним из дополнительных источников трудностей при автоматическом распознавании речевого потока.
Легко заметить, что перспективность указанного очень логичного, но технически сложного подхода критически зависит от того, насколько стандартны моторные команды и что стабильнее — моторные команды или акустический эффект, достигаемый в результате реализации этих команд.
что человек текущим образом распознает дифференциальные признаки фонем (их вариантов) и запоминает не акустический, а фонетический образ сообщения. Именно такая интерпретация этих данных принята в настоящее время.

Предыдущая << 1 .. 6 7 8 9 10 11 < 12 > 13 14 15 16 17 18 .. 159 >> Следующая