Анализ, синтез и восприятие речи - Джеймс Л. Фланаган
Скачать (прямая ссылка):
К ного резонанса (пары полюсов)
ной связью O= ¦
У функции, обратной F(г), нули приходятся на полюсы F(z), отсюда дискретное описание соответствующего простого комплексно сопряженного нуля имеет вид
-26,В
1
F(Z)
а?+ со2
1 — 2е-а'" (cos (Q1 D) z~l + е
e-j,D г-1 sin CO1 D
(6.79)
Эта характеристика физически нереализуема, поскольку z~l в знаменателе означает, что выходной сигнал появляется раньше входного. Умножение на z~\ приводящее к общей задержке на один интервал между отсчетами, не изменяет расположения нулей на плоскости s и делает передаточную функцию реализуемой дискретными операциями, показанными на рис. 6.26. Как и в дискретном описании сопряженного полюса, здесь к умножителям подводятся данные о частоте Co1 и ширине полосы оь Эти основные операции с полюсом и нулем используются для моделирования на большой ЭВМ всего формантного син-
272
СИНТЕЗ РЕЧИ
тезатора. На рис. 6.27 показана одна из схем такого синтезатора (Фланаган, Коукер и Бёрд—Coker and Bird). Вокализованные звуки производятся верхней ветвью, содержащей четы-
Вход о-*—
-2S.D
D -J- D -*-(*)-1
(g'+wfje'^sin W1D
/К. Выход Q-©—-°
2 Ґ'DCOSUJ, D
Рис. 6.26. Цифровые операции для моделирования отдельного ангирезонаиса (пары ,нулей)
ре полюса и один нуль. При гласных последние пары нуль—полюс совпадают, поэтому их общий коэффициент передачи равен единице. При вокализованных согласных, таких, как носовые, они разделяются и устанавливаются в требуемые положения. Регулируются таїкже частота основного тона F0 и амплитуда голосового возбуждения Av.
Импульсный. ґ\/\
генератор \*/
т— T
Fn Ru
Шум
HfM
X X X
t t t
F, F2 F3
X X
Zf Pf Pf
—J- Выход ¦ I речи
Рис. 6.27. Блок-схема моделирования иа ЭВМ синтезатора речи (Фланаган, ,Коукер и Бёрд)
Глухие звуки образуются нижней ветвью, имеющей один нуль и один или два полюса. Амплитуда шума управляется величиной An. Из рис. 6.25 и 6.26 видно, что управление частотами con и полосой !пропускания ап обеспечивается подачей информации об этих величинах на перемножающие устройства цифровой 'машины. Таблица 6.1 — типичная таблица управляющих
ЭЛЕКТРИЧЕСКИЕ МЕТОДЫ СИНТЕЗА РЕЧИ
273
Таблица 6.1
ТИПИЧНЫЕ ДАННЫЕ ДЛЯ УПРАВЛЕНИЯ ВЫЧИСЛИТЕЛЬНОЙ МАШИНОЙ, РАБОТАЮЩЕЙ ПО ПРОГРАММЕ МОДЕЛИРОВАНИЯ СИНТЕЗАТОРА, ПРЕДСТАВЛЕННОГО НА РИС. 6.27
Время MC є к
Частота основного тона гц
Амплитуда сигналов
Частоты формант, гц
Частоты полюсов и нулей
гц
тон Ar,
An
F1
f,
Pf
—20
107
0
170
1290
2190
750
1000
1750
3500
4
5
100
7
180
1260
2170
850
950
8
210
1470
2270
900
900
9
390
1550
2300
10
400
1620
2380
11
1690
2410
12
1700
2460
19
1690
2500
23
410
1510
2430
24
350
1490
2410
25
300
1475
2400
26
250
1490
28
230
1510
32
215
1620
2390
35
210
1700
2330
36
0
25
37
610
610
41
!655
3310
46
1500
2950
47
1400
2800
48
0
320
!420
1800
51
52
25
975
1950
54
960
1920
56
120
925
1850
.57
100
0
58
118
1390
1750
61
112
450
1200
1700
65
107
600
1140
1710
70
690
1115
1910
72
700
1150
2000
78
1305
2070
274
СИНТЕЗ РЕЧИ
величин, вводимых в машину с помощью перфокарт. Эти данные соответствуют примерно одной секунде синтезированной речи. Каждая входящая в таблицу величина держится схемой до введения очередного нового значения. Управляющие функции интерполируются между введенными значениями ступеньками через интервал 2,5 мсек. Частота отсчетов при моделировании
-^- =10 кгц. Спектрограммы исходной речи, из которой были
извлечены управляющие функции, и синтезированной по этим данным речи показаны на рис. 6.28.
Рнс. 6.28. Спектрограммы исходной речи и речи, синтезированной с помощью формантного синтезатора (рнс. 6.27), моделируемого на ЭВМ (Фланаган,
Коукер н Бёрд)
Была построена также цифровая модель формантного синтезатора, управляемого не непрерывно поступающими характеристиками формант, а хранящимися в памяти машины параметрами фонем (Келли и Джерстмен—Kelly and Gerstman). Синтезатор— каскадного типа, в нем имеется четыре пары полюсов, частоты и затухания которых управляются независимо. Возбуждается он сигналами либо с дискретным, либо с шумовым спектром. Сигналы управления поступают на синтезатор после указания заданной последовательности фонем вместе с данными о величинах их основного тона и длительностях. Для этого в схеме созданы условия для кодирования основных соотношений между интонациями и ударениями. При указании синтезируемой фонемы из памяти извлекаются данные о частоте и ширине полосы форманты, соответствующие этой фонеме. Переходы управляющих сигналов от одной фонемы к другой определены рядом правил, выработанных для получения натурального звучания речи и хранящихся в памяти машины. Изучение и усовершенствование такого рода правил представляют для исследова-