Научная литература
booksshare.net -> Добавить материал -> Лингвистика -> Джеймс Л. Фланаган -> "Анализ, синтез и восприятие речи" -> 72

Анализ, синтез и восприятие речи - Джеймс Л. Фланаган

Джеймс Л. Фланаган Анализ, синтез и восприятие речи. Под редакцией Пирогова А.А. — М.: Связь, 1968. — 395 c.
Скачать (прямая ссылка): analizsintivocrech1968.djvu
Предыдущая << 1 .. 66 67 68 69 70 71 < 72 > 73 74 75 76 77 78 .. 149 >> Следующая


Дальнейшее усложнение программы машинной обработки состоит в анализе реального речевого спектра с использованием параметров модели артикуляции (Гейнц — Heinz, 1962,а, Ь). Этот подход отличается от предыдущих в основном программой управления и способом генерирования спектров. Полюсы и нули речевого тракта получаются из характеризующей его артику-ляторной функции или функции площади поперечного сечения в результате решения уравнения Вебстера для рупора (см. гл. III). Спектр, соответствующий рассчитанным полюсам и нулям, генерируется и сравнивается с реальным речевым спектром. Ошибка, получаемая в результате сопоставления, в результате используется для изменения синтезированного спектра путем перестройки на артикуляционном уровне функции площади речевого тракта. Эта функция площади выведена на основе модификации трехпараметричеокого описания конфигурации тракта (Данн, 1950; Стивене и Хаус, 1955; Фант, 1960).

Указанный подход позволяет получить значительные преимущества Перед предыдущими МОДеЛЯМИ распределения ПОЛЮСий

и нулей для речеобразующей системы. Предыдущие модели используют в качестве входных параметров расположение полю-

ФОРМАНТНЫП АНАЛИЗ РЕЧИ

201

сов и нулей на комплексной плоскости для всего речевого тракта передачи в целом, включая источник возбуждения. Полюсы системы не зависят от расположения источника и определяются только ее конфигурацией (см. гл. III). В процессе образования слитной речи они перемещаются непрерывно даже в том случае, когда изменяются характер и местоположение источника. Нули зависят от расположения источника и от конфигурации тракта. В процессе перемещения они могут внезапно появляться и исчезать. Такое скачкообразное поведение нулей (и связанные с ним резкие изменения в речевом спектре) затрудняет слежение за спектральными максимумами.

Артикуляторное описание сигнала в значительной степени устраняет эти трудности. На артикуляционные органы можно наложить более реалистичные ограничения, связанные с непрерывным характером их перемещений. Местоположение невока-лизованного источника, как правило, полностью определяется конфигурацией артикуляционного аппарата, а нули речевого сигнала получаются автоматически как побочный продукт детального изучения конфигурации и возбуждения. Посредством использования артикуляторных параметров можно подобрать спектры для переходов между двумя согласными и между согласным и гласным лишь с незначительно большими усилиями, чем для гласных. Типичный результат процедуры артикуляционной подгонки представлен на рис. 5.27.

На левой диаграмме показано изменение полюсов и нулей во времени для звукосочетания /Je/ двусложного слова /пэ'| г J/ (по шкале времени отложены номера дискретных отсчетов, взятые с интервалом 8,3 мсек). Вертикальная линия, у которой исчезают траектории нулей, представляет собой границу менаду согласным и гласным (для гласной части звукосочетания вычислены только три первые форманты). На диаграмме справа показаны траектории соответствующих четырех артикуляторных параметров, которые были подстроены в процессе подгонки спектров. Эти параметры следующие: г0 — эффективный радиус языкового сужения, d0 — местоположение языкового сужения, измеренное от голосовой щели,

ао — площадь поперечного сечения ротового отверстия, Iq — длина образованной губами трубы.

За время, когда звукосочетание переходит через границу между согласным и гласным, траектории этих параметров остаются непрерывными. В процессе перехода от фрикативного звука /] / к гласному /є/ длина образованной губами трубы становится короче, а ротовое отверстие увеличивается. Местоположение языкового сужения перемещается в сторону голосовой щели,

202

УСТРОЙСТВА ДЛЯ АНАЛИЗА РЕЧИ

1

i
^ .gas
•---
i
ло'/г/ S=JM ^ • Палке
о Нут

--^*«
ш
»

?-?»
•----


-—"Г**
***** УУ^Д^^ %
i

40

a7 40

Дискретные отсчеты дремени (8,3мсек)

50

Рис. 5.27. Анализ образца речи по методу вычисления на ЭВМ полюсов и нулей, использующий для процедуры спектральной подгонки модель артикуляционного аппарата. На диаграммах показано: а) расположение полюсов и «улей; б) артикуляторные параметры (Гейнц, 1962, а)

и радиус сужения становится больше. Во время фрикативного звука невокализованный источник занимает место, расположенное на 2,5 см перед сужением (т. е. сі0 + 2,5).

Применение цифровых вычислительных машин в сочетании с нашими непрерывно обогащающимися знаниями динамики речеобразования и семантических особенностей речи позволит еще глубже понять процессы кодирования речи и ее эффективной передачи. Вполне возможно, что устройства для обнаружения формант, которые окажутся наиболее пригодными на практике, например формантные или артикуляторные вокодеры, можно будет реализовать в виде специализированных цифровых машин, способных выполнять рассмотренные выше виды анализа.

5.2.3. Измерение ширины формантных полос

Полосы формантных резонансов (или действительные части комплексных полюсов) отражают величину потерь в речевом аппарате. Для правильного синтеза речи важны не только ко-
Предыдущая << 1 .. 66 67 68 69 70 71 < 72 > 73 74 75 76 77 78 .. 149 >> Следующая

Реклама

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed

Есть, чем поделиться? Отправьте
материал
нам
Авторские права © 2009 BooksShare.
Все права защищены.
Rambler's Top100

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed