booksshare.net -> Добавить материал -> Лингвистика -> Джеймс Л. Фланаган -> "Анализ, синтез и восприятие речи" -> 67

Анализ, синтез и восприятие речи - Джеймс Л. Фланаган

Джеймс Л. Фланаган Анализ, синтез и восприятие речи. Под редакцией Пирогова А.А. — М.: Связь, 1968. — 395 c.
Скачать (прямая ссылка): analizsintivocrech1968.djvu

Предыдущая << 1 .. 61 62 63 64 65 66 < 67 > 68 69 70 71 72 73 .. 149 >> Следующая

ФОРМАНТНЫИ АНАЛИЗ РЕЧИ

187

обычно больший интерес представляют временные изменения не действительных, а мнимых частей комплексных формантных частот. Тем не менее для оценок процессов восприятия и для спектрального анализа важны соответствующие сведения также и о действительных частях или полосах частот формантных областей. Описанный в гл. III подход к анализу речи с позиций рассмотрения «функционирования системы» позволяет представить речевой сигнал в виде передаточной функции тракта и .функции возбуждения. Если конфигурация голосового тракта известна, то можно рассчитать соответствующие ей спектральные максимумы и получить выходной отклик на заданное возбуждение. В случае автоматического анализа, проводимого в-целях кодирования и передачи речи, обычно имеет место обратная ситуация. В распоряжении имеется только акустический сигнал, по результатам анализа которого требуется выявить свойства источника и резонансы речеобразующей системы. Основная трудность при этом состоит в .незнании того, как однозначно разделить свойства источника и системы.

Резонансные максимумы речеобразующей системы с течением времени постоянно перемещаются, но они не всегда могут быть легко обнаружены, например, по мгновенному спектру сигнала. Отдельные полюсы могут ,на короткие промежутки времени оказаться скрытыми, а также подавленными 'нулями источника или -нулями системы, образующимися из-за элементов боковых ответвлений (таких, каїк носовая полость). В мгновенном спектре достаточно хорошо проявляются высокие резонансные максимумы, но иногда все же трудно с уверенностью определить местоположение полюсов с малой амплитудой или существенных пар полюсов—нулей.

Дальнейшее усложнение ситуации состоит .в том, что сигнал на выходе речевого тракта, как правило, не представляет собой минимально фазовую функцию (т. е. не все его ,нули могут находиться в левой полуплоскости комплексных частот). Если функция была бы минимально фазовой, то ее фазовый спектр полностью определялся бы ее амплитудным спектром. Передаточная функция речевого тракта будет минимально фазовой в тех случаях, когда излучение происходит только из одной точки, т. е. изо рта либо из ноздрей. Это условие не выполняется при одновременном излучении из обеих точек. Можно показать, что если в некоторые моменты времени за период колебания голосовых связок величина потока, создаваемого источником, равна нулю, то последний не имеет полюсов и характеризуется только нулями с конечными значениями своих частот (Мэтьюс, Миллер и Дэвид—Mathews, Miller and David, 1961, b). Кроме того, можно показать, что эти нули могут находиться как в пра-

188

УСТРОЙСТВА ДЛЯ АНАЛИЗА РЕЧИ

вой, так и левой полуплоскостях или одновременно в обеих .(Данн, Фланаган и Гестрин—•Gestrin). Вследствие указанных здесь трудностей многочисленные усилия, направленные на создание точно работающего автоматического формантного анализатора, не достигли цели.

5.2.2. Выделение формантных частот

В первом приближении вокализованное возбуждение резонансной области речевого тракта можно свести к возбуждению короткими, периодически повторяющимися импульсами одиночного резонансного контура. Выходной сигнал в этом случае получает форму затухающих гармонических колебаний, следующих с частотой повторения импульсов. На частоте, равной мнимой составляющей комплексной частоты полюса, огибающая .амплитудного спектра имеет максимум. Эту формантную частоту можно найти измерением либо частоты переходов через нуль временного сигнала, либо частоты максимума огибающей спектра. Если ширина резонансной области сравнительно невелика, то мнимую составляющую частоты полюса можно оценить по

T \fA(f)df

моменту первого порядка амплитудного спектра: / = ¦ — .

Wf) df

Речевой тракт представляет собой многорезонансную систему. Поэтому временной сигнал на его выходе есть результат наложения большого числа затухающих гармонических колебаний, а спектр амплитуд характеризуется множеством максимумов. Результаты измерения частоты переходов через нуль, максимумов спектра и (моментов позволяют определить частоту форманты только в том случае, если каждая резонансная область может быть исследована в изолированном, например путем соответствующей фильтрации, виде. Если нужно выявить более тонкие свойства источника и системы (скажем, нули, создаваемые голосовыми связками или резонатором бокового ответвления в спектре), необходимо использовать соответственно более сложные способы измерения спектральных максимумов. Один из таких способов заключается в точной подгонке гипотетической модели спектра к реальному речевому спектру, для чего выгодно использовать быстродействующие вычислительные машины с большим объемом памяти.

Измерение частоты форманты по частоте переходов через нуль. Одна из первых попыток автоматического слежения за частотами формант состояла в подсчете среднего числа переходов через нуль (Петерсон Е. — Peterson E.). В качестве частот первой и второй формант принимались величины, пропорцио-

ФОРМАНТНЫИ АНАЛИЗ РЕЧИ

Предыдущая << 1 .. 61 62 63 64 65 66 < 67 > 68 69 70 71 72 73 .. 149 >> Следующая