Анализ, синтез и восприятие речи - Джеймс Л. Фланаган
Скачать (прямая ссылка):
Рис. 6.6. Схема устройства для проигрывания спектрограмм (а) (по Куперу) и спектрограммы реальной речи и схематизированной нарисованной от руки (б). Обе картинки могут быть синтезированы с помощью проигрывающего устройства (по Бсцрсту): / — источник света, 2 — цилиндрическая линза, 3—фоническое колесо, 4 — лниза, 5 — зеркало под углом 45°, 6 — коллектор света и фотоэлемент (отражение), 7 — спектрограмма, 8 — коллектор света при просвечивании, 9 — громкоговоритель,
10 — усилитель
232
СИНТЕЗ РЕЧИ
матизированные рисованные картинки, примерный вид которых показан на рис. 6.66. На рисованой спектрограмме, в ее нижней части, темные линии соответствуют речевым формантам, а вкрапления тонких штрихов — всплескам шума. Эта машина позволяет получить разборчивую монотонную речь и широко используется при исследовании процессов восприятия.
6.2.2. Синтезаторы-четырехполюсники
В гл. III для акустического анализа речевого тракта оыла применена теория линейных цепей. Полученные при этом результаты показывают, что передаточные характеристики трактов с простой геометрией можно описать простыми выражениями. Тракты сложной формы можно аппроксимировать из коротких отрезков цилиндрических звуковых труб.
Поведение речевого тракта рассматривается либо с точки зрения сквозной характеристики передачи, либо на основе подробного представления всех его свойств. Синтез речи может быть основан на любом из этих подходов. В первом случае делаются попытки построить электрическую цепь, обычно несимметричную, с характеристикой передачи, совпадающей с характеристикой передачи тракта от входа до выхода. Синтезаторы такого типа получили несколько неудачное название «синтезаторы— четырехполюсники» (terminal — analogs) (Фланаган, 1957, с). Во втором случае пытаются создать полный электрический аналог речевого тракта с учетом геометрии и распределенного характера его параметров. Электрические синтезаторы представляют собой также симметричную неоднородную линию, моделирующую тракт. Оба метода синтеза требуют учета звукоизлучения и работы источников голосового возбуждения. Эти факторы, общие для обеих моделей получения речи, будут рассмотрены позднее.
Сквозные характеристики голосового тракта. Возбуждаемый голосовыми связками тракт без сужений можно приближенно представить в виде прямой трубки, замкнутой у голосовых связок {Zg= со) и разомкнутой у рта (zr = 0). В этом случае отношение потоков у рта и в гортани зависит от частоты следующим образом:
где / — длина трубки, у= (ct + i?) =[(Ra + iaLa) (G0-ИмC0)] ; , а Ra, La, Ga, Са являются погонными акустическими параметрами трубки [см. рис. 3.22 и ур-ние (3.61)].
ЭЛЕКТРИЧЕСКИЕ МЕТОДЫ СИНТЕЗА РЕЧИ
233
В дальнейшем удобно рассматривать частоту как комплексное переменное. Подставим вместо ісо 5 = ст+ісо, тогда y(s) =
=[(Ra + sLa)(Ga+sCa)]1/2 . В случае малых потерь у(5)~( <*+
— , где с=—г_
С У VL0Ca
— скорость звука [см. ур-ние (3.8)].
Поскольку речевой тракт является системой с распределенными параметрами, его характеристики передачи содержат трансцендентные функции. Однако эквивалентная ему по внешним свойствам электрическая цепь с сосредоточенными параметрами описывается рациональными мероморфными функциями. Поскольку трансцендентные передаточные функции голосового тракта мероморфны, а их числитель и знаменатель обычно являются интегрируемыми функциями (т. е. аналитическими для всех конечных значений комплексного переменного), характеристики передачи могут быть представлены рациональными функциями.
В теории функций имеется соотношение (Титчмарш — Ti-tchmarsh), согласно которому функцию f(z), интегрируемую по комплексному переменному z и удовлетворяющую некоторым ограничениям, можно представить в виде произведения
/(z) =/(0) е ПО Г| (l--Ljea™, (6.2)
где ат — порядковые простые нули f(z).
Для характеристики (6.1) нули знаменателя (или полюсы самой функции) находятся в точках
(2я — 1) л
Y(S) = ±i
21
или
Y2 (S)
(2п — 1)2 яз
4/2
л=1, 2...1)
= (Ra+SLa)(Ga+sCa),
откуда, отбрасывая индексы а, получаем
(2/1 — 1)2 я2
\2L 2С ) —
\2L
WLC
= —ап + '\<ап, п = 1, 2...
2С
(6.3)
') В гл. III этот результат был записан в виде Y = + і
(2га+ 1) я 21
«=0, 1, 2... [см ур-ние (3.62)]. В данном случае удобнее писать (2га—1), /1=1, 2,... Это связано с мнемоническим удобством в том смысле, что представляет также номер форманты.
234
СИНТЕЗ РЕЧИ
Для малых потерь
5я^ас + і(2л-1)ЯС, /Г= 1,2..., (6.4)
что равносильно выражению (3.63) (за исключением перехода к 2п—1 и я=1, 2...). Подстановка (6.3) в (6.2) дает
chz = П
я=1
1
, . (2л-1) я
+ і-:;-
(6.5)
где z — y(s')l. [Два первых сомножителя (6.2) стремятся к единице, а последний при перемножении дает единицу, так как корни f(z) — сопряженные мнимые величины]. Для малых по-
терь y(s)lz&^a -)—— j , откуда
я с
¦п ±1(2"~"* -П
' і,, і j (2я-1)яс ' (s-s„)(s-S;)
- п, ;f . (6.6)
т. е. то же самое, что и в (3.64).