booksshare.net -> Добавить материал -> Лингвистика -> Джеймс Л. Фланаган -> "Анализ, синтез и восприятие речи" -> 98

Анализ, синтез и восприятие речи - Джеймс Л. Фланаган

Джеймс Л. Фланаган Анализ, синтез и восприятие речи. Под редакцией Пирогова А.А. — М.: Связь, 1968. — 395 c.
Скачать (прямая ссылка): analizsintivocrech1968.djvu

Предыдущая << 1 .. 92 93 94 95 96 97 < 98 > 99 100 101 102 103 104 .. 149 >> Следующая

К ного резонанса (пары полюсов)

ной связью O= ¦

У функции, обратной F(г), нули приходятся на полюсы F(z), отсюда дискретное описание соответствующего простого комплексно сопряженного нуля имеет вид

-26,В

1

F(Z)

а?+ со2

1 — 2е-а'" (cos (Q1 D) z~l + е

e-j,D г-1 sin CO1 D

(6.79)

Эта характеристика физически нереализуема, поскольку z~l в знаменателе означает, что выходной сигнал появляется раньше входного. Умножение на z~\ приводящее к общей задержке на один интервал между отсчетами, не изменяет расположения нулей на плоскости s и делает передаточную функцию реализуемой дискретными операциями, показанными на рис. 6.26. Как и в дискретном описании сопряженного полюса, здесь к умножителям подводятся данные о частоте Co1 и ширине полосы оь Эти основные операции с полюсом и нулем используются для моделирования на большой ЭВМ всего формантного син-

272

СИНТЕЗ РЕЧИ

тезатора. На рис. 6.27 показана одна из схем такого синтезатора (Фланаган, Коукер и Бёрд—Coker and Bird). Вокализованные звуки производятся верхней ветвью, содержащей четы-

Вход о-*—

-2S.D

D -J- D -*-(*)-1

(g'+wfje'^sin W1D

/К. Выход Q-©—-°

2 Ґ'DCOSUJ, D

Рис. 6.26. Цифровые операции для моделирования отдельного ангирезонаиса (пары ,нулей)

ре полюса и один нуль. При гласных последние пары нуль—полюс совпадают, поэтому их общий коэффициент передачи равен единице. При вокализованных согласных, таких, как носовые, они разделяются и устанавливаются в требуемые положения. Регулируются таїкже частота основного тона F0 и амплитуда голосового возбуждения Av.

Импульсный. ґ\/\

генератор \*/

т— T

Fn Ru

Шум

HfM

X X X

t t t
F, F2 F3

X X

Zf Pf Pf

—J- Выход ¦ I речи

Рис. 6.27. Блок-схема моделирования иа ЭВМ синтезатора речи (Фланаган, ,Коукер и Бёрд)

Глухие звуки образуются нижней ветвью, имеющей один нуль и один или два полюса. Амплитуда шума управляется величиной An. Из рис. 6.25 и 6.26 видно, что управление частотами con и полосой !пропускания ап обеспечивается подачей информации об этих величинах на перемножающие устройства цифровой 'машины. Таблица 6.1 — типичная таблица управляющих

ЭЛЕКТРИЧЕСКИЕ МЕТОДЫ СИНТЕЗА РЕЧИ

273

Таблица 6.1

ТИПИЧНЫЕ ДАННЫЕ ДЛЯ УПРАВЛЕНИЯ ВЫЧИСЛИТЕЛЬНОЙ МАШИНОЙ, РАБОТАЮЩЕЙ ПО ПРОГРАММЕ МОДЕЛИРОВАНИЯ СИНТЕЗАТОРА, ПРЕДСТАВЛЕННОГО НА РИС. 6.27

Время MC є к
Частота основного тона гц
Амплитуда сигналов
Частоты формант, гц
Частоты полюсов и нулей
гц

тон Ar,
An
F1

f,

Pf

—20
107

0
170
1290
2190
750
1000
1750
3500

4

5

100

7

180
1260
2170
850
950

8

210
1470
2270
900
900

9

390
1550
2300

10

400
1620
2380

11

1690
2410

12

1700
2460

19

1690
2500

23

410
1510
2430

24

350
1490
2410

25

300
1475
2400

26

250
1490

28

230
1510

32

215
1620
2390

35

210
1700
2330

36

0
25

37

610
610

41

!655
3310

46

1500
2950

47

1400
2800

48

0
320
!420
1800

51

52

25

975
1950

54

960
1920

56
120

925
1850

.57

100
0

58
118

1390
1750

61
112

450
1200
1700

65
107

600
1140
1710

70

690
1115
1910

72

700
1150
2000

78

1305
2070

274

СИНТЕЗ РЕЧИ

величин, вводимых в машину с помощью перфокарт. Эти данные соответствуют примерно одной секунде синтезированной речи. Каждая входящая в таблицу величина держится схемой до введения очередного нового значения. Управляющие функции интерполируются между введенными значениями ступеньками через интервал 2,5 мсек. Частота отсчетов при моделировании

-^- =10 кгц. Спектрограммы исходной речи, из которой были

извлечены управляющие функции, и синтезированной по этим данным речи показаны на рис. 6.28.

Рнс. 6.28. Спектрограммы исходной речи и речи, синтезированной с помощью формантного синтезатора (рнс. 6.27), моделируемого на ЭВМ (Фланаган,

Коукер н Бёрд)

Была построена также цифровая модель формантного синтезатора, управляемого не непрерывно поступающими характеристиками формант, а хранящимися в памяти машины параметрами фонем (Келли и Джерстмен—Kelly and Gerstman). Синтезатор— каскадного типа, в нем имеется четыре пары полюсов, частоты и затухания которых управляются независимо. Возбуждается он сигналами либо с дискретным, либо с шумовым спектром. Сигналы управления поступают на синтезатор после указания заданной последовательности фонем вместе с данными о величинах их основного тона и длительностях. Для этого в схеме созданы условия для кодирования основных соотношений между интонациями и ударениями. При указании синтезируемой фонемы из памяти извлекаются данные о частоте и ширине полосы форманты, соответствующие этой фонеме. Переходы управляющих сигналов от одной фонемы к другой определены рядом правил, выработанных для получения натурального звучания речи и хранящихся в памяти машины. Изучение и усовершенствование такого рода правил представляют для исследова-

Предыдущая << 1 .. 92 93 94 95 96 97 < 98 > 99 100 101 102 103 104 .. 149 >> Следующая