Научная литература
booksshare.net -> Добавить материал -> Лингвистика -> Джеймс Л. Фланаган -> "Анализ, синтез и восприятие речи" -> 95

Анализ, синтез и восприятие речи - Джеймс Л. Фланаган

Джеймс Л. Фланаган Анализ, синтез и восприятие речи. Под редакцией Пирогова А.А. — М.: Связь, 1968. — 395 c.
Скачать (прямая ссылка): analizsintivocrech1968.djvu
Предыдущая << 1 .. 89 90 91 92 93 94 < 95 > 96 97 98 99 100 101 .. 149 >> Следующая


ЭЛЕКТРИЧЕСКИЕ МЕТОДЫ СИНТЕЗА РЕЧИ

263

стен. Насколько они важны для восприятия? Следует ли учитывать их при таких методах анализа речи, как анализ подгонкой спектральных образцов? Важны ли они при синтезе натурально звучащей речи? Ответы на эти вопросы пока еще не ясны, и, вероятно, их можно будет получить лишь в результате надлежащих субъективных оценок. Однако сейчас ясно, что в некоторых особых условиях (которые иногда отличаются в звуковых спектрограммах) нуль сигнала возбуждения может оказаться около формантной частоты и может изменить и спектр звука и его восприятие.

Возможность ликвидации форманты нулем в сигнале голосовых связок легко иллюстрируется с помощью синтетической речи. На рис. 6.22 показана схема четырехрезонагаеного синтезатора гласных, который возбуждается колебанием от голосо-

Плоскости S

-<tO

-60

Г "1 1 і -пгг
IMl
—і-1 Г"


\ /А \ I Л
\ I V


-
І У \



Б


Гласный.: [а/



Колебание

я

голособых связок



(TrW

\ I

і Iii
I Л і

200 300 500
WO /ООО
2000 501

гш/2л t/500

IWDO

L-»

)500 .6'/к

- -100-50 \

Частота, гц

h-500 h-1000 И )-1500 W

Щ1500

-WOO

н—I—

-100 -50.

¦O/7z

¦ -500

(Б)

Рис. 6.22. Влияние нулей голосовых связок на результаты измерения спектра синтетического гласного звука А—то=4,0 мсек, Б—То=2,5 мсек (Фланаган, 1961, Ь)

вых связок, по форме близким к симметричному треугольнику. Амплитудный спектр измерен анализатором гармоник для двух значений времени нарастания. Синтезируется звук /Л/. В первом примере (А) время нарастания выбрано таким, чтобы первый двойной нуль расположился вблизи первой форманты (то~ ~4 мсек). В примере (Б) первый нуль возбуждения лежит между первой и второй формантами (то~2,5 мсек). Сравнительное положение нулей и полюсов в области первых двух формант показано на плоскости s. В первом случае пик первой

264

СИНТЕЗ РЕЧИ

форманты явно подавлен и сглажен1). Прослушивание показывает значительную разницу в звучании двух этих образцов звуков.

В более искусственных условиях влияние нулей источника можно сделать еще более сильным. Предположим, например, что синтезатор установлен на гласный / э /, полюсы которого распределены почти равномерно. Предположим также, что возбуждение представляет собой короткие (двойные импульсы и описывается выражением f(t)=a(t)+b(t—б), где a(t) и b(t) — импульсы с площадями а и ft соответственно. Спектр f(t) есть F(s) = (a + fte~s6 ) с нулями в точках

S==J--lln^_±i (2"+I)Hj1 п = 0> і _ . (6-64)

Таким образом, в этом сигнале нули расположены так же, как и в предельном случае на высоких частотах, определяемом выражением (6.63). Выбрав соответствующие значения -^- и б,

b

нули источника можно установить вблизи частот формант. На трех номограммах рис. 6.23 показаны три различных условия возбуждения (включая возбуждение единичным импульсом). Показаны также осциллограммы возбуждения и полученного синтезированного звука. В первом случае отчетливо слышен гласный звук, отождествляемый с / э /. Во втором и третьем примерах качество звучания и окраска 'Гласного существенно другие. Звуки 2 и 3 мало отличаются на слух, хотя форма их колебаний совершенно различная. Существует, по-видимому, узкая вертикальная полоска, симметричная относительно оси ito, расположение нулей в которой может существенно влиять на восприятие. Возбуждение двойными импульсами позволяет при проведении субъективных испытаний простыми средствами изменять расположение нулей. Кроме того, в какой-то степени это аналогично явлению диплофонии (Смит—Smith).

Как уже подчеркивалось в этом разделе, значение мелких деталей и нулей в сигнале возбуждения для восприятия еще недостаточно установлено. Однако известна, по крайней мере, одна методика анализа речи, в которой для получения более точных данных о спектре учитывались нули колебаний голосовых связок (Мэтьюс, Миллер и Дэвид — Mathews, Miller and

') Ни в одном из примеров измеренный амплитудный спектр на частотах нулей не обращается в нуль. Генерируемые в лаборатории колебания голосовой щели не были строго симметричными, и их нули не лежали на оси іш.

ЭЛЕКТРИЧЕСКИЕ МЕТОДЫ СИНТЕЗА РЕЧИ

265

David, 1961, b). Использовалась модель расположения ,нулей и полюсов со средней плотностью нулей один на каждые — гц,

согласующаяся со спектром реальной речи в смысле взвешенного минимального квадрата (см. разд. 5.2.2). Типичные точки

Импульсы возбуждения

Выходной сигнал гласного /э/

X j 2500 х --1S00

Расположение х нулей и полюсов j j j

-Ю0

500 +44-

-500 -1500 X 1—25011

Ъы/Зтс

XO

уо--1500

4-Ь

-100

а--

X)

2500

500 +44

6

- о 2500 х 4- о 1500

о 500 +44-

-+++

-100

' Ir,"

хо 1—2500

'/S-

X-Lo -2Ш

Рис. 6.23. Метод управления нулями источника для изменения звучания гласного звука. В левой номограмме нулей нет, в средней—все нули в левой полуплоскости, в правой — все нули ,в правой ¦полуплоскости (Фланаган, 1961, Ь)
Предыдущая << 1 .. 89 90 91 92 93 94 < 95 > 96 97 98 99 100 101 .. 149 >> Следующая

Реклама

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed

Есть, чем поделиться? Отправьте
материал
нам
Авторские права © 2009 BooksShare.
Все права защищены.
Rambler's Top100

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed