Научная литература
booksshare.net -> Добавить материал -> Лингвистика -> Джеймс Л. Фланаган -> "Анализ, синтез и восприятие речи" -> 134

Анализ, синтез и восприятие речи - Джеймс Л. Фланаган

Джеймс Л. Фланаган Анализ, синтез и восприятие речи. Под редакцией Пирогова А.А. — М.: Связь, 1968. — 395 c.
Скачать (прямая ссылка): analizsintivocrech1968.djvu
Предыдущая << 1 .. 128 129 130 131 132 133 < 134 > 135 136 137 138 139 140 .. 149 >> Следующая


И DB.

При цифровом моделировании системы на универсальной ЭВМ емкость накопителя вч была принята равной 500 мсек. В тех редких случаях, когда длительность отрезка речи превышает 500 мсек, чтобы не допустить неправильного восстановления, остаток записи вч сигнала стирался. Типичное поведение системы по результатам моделирования иллюстрируется спектрограммами (рис. 8.19), соответствующими фразе «High altitude jets whiz past screaming» («С ревом промчались высотные реактивные самолеты»). Если сравнить работу всей системы с работой канала с полосой 0,5 w, то видно, что в рассматриваемой системе передается значительная часть высоких частот. Передаются все

362

СИСТЕМЫ СИНТЕТЯЧЕСКОИ ТЕЛЕФОНИИ

Jk.

/

о

і

о

Jk о і і о

Пер. I Пер 2 Накопитель

I О

0 I

1 0 Запись О О воспроизведение

Рис. 8.18. Блок-схема «одноканальной» системы ТАСИ, предназначенной для двукратного сжатия спектра (Фланаган, Шредер и

Бёрд)

нч

ч

' ____ _ _

« і'-,,, I I ,,. I . I I ! Г . I I . І і I I I I J

I! 0,2 Д'. е.Є 0,Я 1,0 I,/, '.* ^ /,S Я/ Агі

t_ гиеяи

¦й »Ii

• 1-" - -ч

і і і і t і і і 'і і і і

1 ' '? ' «л ' L- ' ад ' ив ',a '.* « *' V A* **

8рея»,яне

Рис. 8.19. Спектрограмма речи, иллюстрирующая действие одноканального ин

терполятора речи

ДРУГИЕ МЕТОДЫ СОКРАЩЕНИЯ ПОЛОСЫ

высокие частоты турбулентных взрывных звуков и большая часть высоких частот гласных звуков. Усовершенствование достигается ценой усложнения накопителя и системы коммутации, а также внесения запаздывания на 0,5 сек.

8.7.5. Представление речи ортогональными функциями

Один из возможных способов описания сигнала минимальным числом независимых параметров состоит в аппроксимации его набором ортогональных функций1). В этом случае информация передается коэффициентами разложения. Желательно выбирать ортогональную систему функций с учетом некоторых известных характеристик сигнала.

Метод разложения по ортогональным функциям применим для описания как временной функции речи, так и ее амплитудного спектра. При попытке точного описания формы речевой волны с сохранением фазовых соотношений потенциальные возможности сжатия спектра невелики2). С другой стороны, спектральный подход таит больше возможностей. Заслуживают внимания также некоторые интересные соотношения между мгновенным спектральным и корреляционным анализом.

Разложение во временной области. Одним из наиболее общих методов, описанных в литературе, является метод представления временной функции сигнала ортогонализированным набором экспоненциальных функций (Хаггинс — Huggins, 1957; Коотц—Kautz). Метод применялся для анализа на интервале длительности периода звонких звуков (Доланский—Dolansky, 1960). Сигнал f(t) в пределах одного периода ОТ можно приближенно представить в виде

f U) ^J1C1nBnU), (8.5)

т

где gm (t) — совокупность ортогонализированных экспоненциальных функций. Изображения по Лапласу функций нечетных и четных порядков соответственно имеют вид

') Более подробно о применении аппарата ортогональных разложений в задачах анализа и синтеза речи см. * /В. И. Куля (прим. ред.).

2) Н. ^K- Игнатьев заметил, что в этом случае возможности сокращения спектра в 2 раза меньше, чем в случае применения вокодеров, не требующих передачи информации о фазовом спектре і(см. * А. А. Пирогов). При этом следует иметь в виду, что воспринимаемый тембр речи сильно зависит от фазовых .соотношений в синтезируемом спектре (* В. Е. Муравьев) (дрии. ред.).

36'

системы синтетической телефонии

п—1

П

(S + Sy) ( S + Sf)

(S-S71)(S-S*) /=>1 (S-Sy)(S-S*)

п—1

G2n(S) = V^n-

(S + Sy) ( S + S*)

(S-Sn)(s-s'n) /=1 (S-Sy)(S-S*)

где Sn= (—<*„ +i?,).

Оригиналами изображений (8.6) являются

п

fc=l

(8.6)

\ . (8.7)

8ы it) = 2^ і A «* ^ e~"fc< Sin [P* W - ^

ft= I

где Rm (s4) = {Gm (s) [(s + «») + ?f]}s=Sfc и &m (Sfc) = •

Первые две функции ^7n(O представляют собой затухающие синусоиды, отличающиеся фазами и амплитудами. Множители Gm(s) под знаком произведения совпадают с коэффициентами передачи четырехполюсников (фазовых контуров), равномерно пропускающих все частоты. По мнению автора (Доланский), число п = 7 (или т=14) является достаточным для хорошей аппроксимации речевой волны. Критические частоты sm выбираются так, чтобы перекрыть весь диапазон частот голоса с интервалами порядка нескольких сотен герц. Считая, что f(t)=0 при

г=0 и с учетом соотношения 1 gn{t)ua(t)dt—\ Р ^

о 1 0; рфц,

получаем формулу для определения &-го коэффициента разложения в ряд по ортонормированным функциям:

Cu = I fit) SAt) М.

(8.8)

Простой, но непрактичный, метод измерения коэффициентов очевиден. Предположим, что сигнал f(t) пропускается через физически реализуемый фильтр с импульсным откликом gh(t). Тогда сигнал на выходе

U(t) = \gk(r)f(t-r)dx.
Предыдущая << 1 .. 128 129 130 131 132 133 < 134 > 135 136 137 138 139 140 .. 149 >> Следующая

Реклама

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed

Есть, чем поделиться? Отправьте
материал
нам
Авторские права © 2009 BooksShare.
Все права защищены.
Rambler's Top100

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed