Анализ, синтез и восприятие речи - Джеймс Л. Фланаган
Скачать (прямая ссылка):
z(S)^4-(s+50)n (5-^Г4)
m=l smsm
CZn
где
OO
In I Kft (ico)l«-
т=й+1 m
OO
(6.21)
m=a-h
И ГДЄ CO1 =
я с
T
Суммирование может быть переписано в виде
k
ln|KA(i")l~-^" '
я2
6
т=1
1
т2
или
--2" T (A)
(6.22)
где T(k) есть действительная положительная функция номера нуля k. За исключением знака экспоненты, она имеет тот же вид, что и (6.15). Это значит, что коэффициент | Уь(ісо) | может быть реализован в виде частотного выравнивателя в сочетании с переменными полюсами и нулями формантного синтезатора.
Этот простой пример возбуждения переднего конца показывает, что функция передачи голосового тракта в общем случае содержит и полюсы {P(s)] и нули [Z(s)1 В данном примере нули (подобно полюсам) равномерно распределены по частоте. В неоднородном речевом тракте частоты полюсов и нулей в общем случае будут распределены неравномерно. Помимо того, что нули в функции передачи определяются положением источника, они могут также возникать при наличии побочных каналов, соединенных с главным трактом передачи. Здесь имеются в виду носовые согласные, назализованные гласные и, по-видимому, плавные звуки, подобные /1/. Во всех случаях, когда звук излучается из одного отверстия (рта или ноздрей), речевой тракт является минимально фазовым. При одновременном излучении изо рта и ноздрей (как при назализованных звуках)
ЭЛЕКТРИЧЕСКИЕ МЕТОДЫ СИНТЕЗА РЕЧИ
239
тракты передачи до каждого из отверстий являются минимально фазовыми, но общая характеристика в заданной точке пространства перед говорящим будет неминимально фазовой.
Влияние резонатора в ответвлении. Влияние носового или ротового ответвления (Можно !проиллюстрировать на примере рис. 6.9. На очень низких частотах эту схему можно рассматривать как цепь с сосредоточенными постоянными, аппроксимирующими главные полости и сужения (рис. 6.96). Полюсы це-
Рис. 6.9. Упрощенные цепи, показывающие соединение ротовой (а) и носовой (б) полостей
пи находятся на частотах, где сумма комплексных проводимо-стей в любой узловой точке равна нулю. Для примера удобно рассмотреть точку соединения носовой и ротовой полостей у мягкого неба. При малых потерях соответствующие полные проводимости такой низкочастотной аппроксимации равны
Yn =
sL3
Yn =
sL2
5C1
S2 +
LbC3
Cs \ L3 L 5
а2-
-3 \
1
L1C2
1/1 1
Cv \ La La
(6.23)
240
СИНТЕЗ РЕЧИ
или, для действительных частот S —> 1С0, Yn
Ym =
Yn =
І W I3(W2P-0)2) І W I2(W^p — Q»)
і со Cx
I
(6.24)
где cono и сото являются нулями полных проводимостеи носа и рта. Полюсы этой системы приходятся «а частоты, при которых SY= Yn + Ym + Yp = 0, или
wL — W2 W2 „ — W2
со* C1 = ——2-г + —^-- . (6.25)
M<u2p-w2) M<p-G>2)
Нуль в области низких частот функции — лежит в точке
и?
U s
comp, а функции — в точке С0ир. ие
Рассмотрим расположение низкочастотных нулей и полюсов для очень упрощенного случая. Предположим, что размеры полостей глотки, рта и носа (C1, C2, C3) поддерживаются постоянными, а сужения рта и мягкого неба (L2, L3, L4) — переменными. Предположим также, что площади мягкого неба таковы, что (An +Ат) = A0=const, т. е. что L2 и L3 связаны обратной зависимостью. Пусть длины всех труб фиксированы, так что единственным переменным сосредоточенным элементом является изменяющаяся площадь. Посмотрим, как будут вести себя низкочастотные нули и полюсы при последовательности звуков: гласный — назализованный гласный — носовой, как в /ат/. Упрощенная последовательность артикуляции такова: гласный звук — рот открыт, а носовой тракт отключен и замкнут; назализованный гласный — мягкое небо частично открыто, а рот еще не закрыт; носовой — мягкое небо полностью открыто, а рот закрыт.
Для гласного звука связь с носовой полостью отсутствует и L3=S оо. Частоты Co710 и апр равны (т. е. полюс и нуль совпадают), a Yn = O. Полюсы передаточной функции приходятся на те частоты, где Ym=Yv. Когда гласный звук назализуется, мягкое небо открывается, L3 уменьшается, a L2 возрастает. Co710 остается на месте, но ©пр отделяется от сопо и движется в сторону увеличения. CO71J, становится нулем функции передачи голосовая
МЕХАНИЧЕСКИЕ МЕТОДЫ СИНТЕЗА РЕЧИ
241
щель — рот. Аналогичным образом сото остается неизменной, а ы)тр уменьшается. Точные пути перемещения нулей и полюсов системы зависят от относительных размеров полостей рта и носа, но обычно исходные полюсы гласных звуков перемещаются вверх по частоте. Частоты выше частоты сопо носового полюса
ПОЯВЛЯЮТСЯ при разделении COnO И СОпр.
Чтобы получить носовой звук, рот закрывается, L4 стремится к бесконечности и ноздри становятся единственным источником излучения звуковой энергии. Закрытая полость рта в этом случае служит резонирующим ответвлением для тракта передачи голосовая щель — ноздри, сото обращается в нуль, а величина атр уменьшается. сотр является нулем функции передачи тракта голосовая щель — ноздри. Первый полюс этой системы лежит на сравнительно низкой частоте, второй помещается около сотр, а третий обычно несколько выше сотр. Результаты более подробных вычислений приводились выше для голосового тракта идеализированной конфигурации (см. рис. 3.37). Для такого носового звука, как /т/, характерные частоты первых четырех полюсов составляют примерно 250, 1100, 1350 и 2000 гц, а нуля — 1300 гц. Более глубокий анализ носовых звуков можно найти в литературе (Фуджимура — Fujimura, 1962).