Научная литература
booksshare.net -> Добавить материал -> Лингвистика -> Джеймс Л. Фланаган -> "Анализ, синтез и восприятие речи" -> 127

Анализ, синтез и восприятие речи - Джеймс Л. Фланаган

Джеймс Л. Фланаган Анализ, синтез и восприятие речи. Под редакцией Пирогова А.А. — М.: Связь, 1968. — 395 c.
Скачать (прямая ссылка): analizsintivocrech1968.djvu
Предыдущая << 1 .. 121 122 123 124 125 126 < 127 > 128 129 130 131 132 133 .. 149 >> Следующая


Несколько слов можно сказать о сравнительных преимуществах параллельной схемы перед последовательной и о том, подходе, который позволил бы получить самый эффективный и практичный ряд параметров. Передаточная функция вокализованных звуков содержит только полюсы. Поэтому вычеты в этих полюсах являются функциями только частот полюсов. При заданных частотах формант любые сведения об их амплитудах являются избыточными, поскольку амплитуды определяются частотами. В каскадном синтезаторе амплитуды формант устанавливаются правильно автоматически, исключительно по данным о частотах формант. При шумовых звуках передаточная функция речевого тракта может иметь нули, из которых один или два могут оказаться существенными для восприятия. Для учета этих факторов в каскадном синтезаторе необходимы управляемые антирезонансы. И здесь известные частоты нуля и полюса автоматически определяют амплитуды спектральных составляющих.

Для параллельного синтезатора требуются частоты важных для звучания полюсов и, в идеальном устройстве, комплексные вычеты в этих полюсах, определяющие и нули в спектре. Роль фаз вычетов при восприятии, если она и есть, еще только предстоит установить. Уместен вопрос: «Что легче анализировать автоматически, частоты нулей спектра или амплитуды и фазы спектральных максимумов?». Вопрос усложняется другим обстоятельством, связанным с источником возбуждения. Каковы те его параметры, которые важны для восприятия? Легче ли их представить в той или другой форме? На данном этапе окончательный выбор с практической точки зрения еще не ясен, для этого необходимы дальнейшие исследования.

ФОРМАНТНЫЕ ВОКОДЕРЫ

345

8.5.2. Уплотнение и дискретизация формантных вокодеров

Схема работающего в.реальном времени формантного вокодера параллельного типа, который был подвергнут всесторонним испытаниям, показана на рис. 8.11 (Стед и Джонс — Stead and Jones). Наряду с проверкой непосредственного соединения анализатора и синтезатора этот вокодер был испытан с цифро-

ТІнализатор

Коснел переду чи

Синтезатор

QrI

Микрофон

ПФ 100-800

пф 800-2800

Выпр —g-j-

г пф

~ssoo-sooo

X

Дискриминатор тон/шум

I

-@"4

-[flwf-j—

Источник шума

ц

it

я,

K3

Мод.

мод.

Мад. -,

Мод

\Ма&

Генераторы формант

F2

"7Г

ашкл 4кеи

Fs

\Гром>

\00р'

I__,

J

Рис. 8.11. Полная схема формантного вокодера, работающего по аналоговому и дискретному каналам (Стед и Джонс; Стед и Вестон)

вой системой передачи с ИКМ и временным уплотнением. Многие узлы этой системы аналогичны описанным ранее в других устройствах. В одном из вариантов в основе конструкции синтезатора лежали результаты ранних исследований (Лоуренс — Lawrence, 1953). Выделитель частот формант использует метод автовыбора максимума, описанный в разделе 5.2. Замысел и выполнение схемы исключительно изящны, много внимания уделено обеспечению правильного выделения частот и амплитуд в большом динамическом диапазоне. В аналоговом варианте

346

СИСТЕМЫ СИНТЕТИЧЕСКОЙ ТЕЛЕФОНИИ

фильтры нижних частот ограничивают спектр каждого из 8 управляющих параметров примерно 20 гц, что дает суммарную полосу частот около 160 гц. Как указывается, разборчивость по фонетически сбалансированным словам при исходной речи высокого качества и сравнительно неквалифицированных слушателях составляет в среднем 70%.

Как отмечалось ранее, цифровая передача очень выгодна. Не последним преимуществом является возможность периодически регенерировать сигнал без накопления ошибок. Проблемы переключения, временного разделения и скрытности при цифровом сигнале решаются простейшими методами. Трудность здесь в том, что при таком кодировании требуется гораздо большая полоса частот, чем при аналоговой передаче. Например, речь полосой 3000 гц, отсчитанная по Найквисту (6000 отсчетов в секунду) и квантованная 6 или 7 разрядами, требует (без дополнительного кодирования) полосу частот порядка 50 кгц. Если в результате соответствующего кодирования удастся снизить скорость передачи до величины порядка 1000 дв. ед./сек, цифровой сигнал можно будет передавать по стандартным каналам шириной 3000 гц. Формантный вокодер позволяет рассчитывать на осуществление такого кодирования.

В формантном вокодере (рис. 8.11) управляющие параметры ограничены частотой 20 гц. Для их дискретизации была найдена минимально допустимая скорость отсчетов 32 отсч./сек. Эта величина говорит о том, что значимая энергия управляющих параметров на частотах выше 16 гц мала. Приемлемые числа уровней квантования по амплитуде в данной системе показаны в табл. 8.3.

При оценке цифровой передачи было решено, что 16 уровней для частоты первой форманты слишком много, а 8 — слишком мало. Для трех параметров амплитуд было решено, что 8 уровней дают излишнюю точность и что можно получить дополнительную экономию, кодируя их по логарифмическому закону.

Интересно сравнить экспериментальные цифры табл. 8.3 с произведенной ранее оценкой точности, необходимой для передачи аналогичных параметров (Фланаган, 1957, Ь). Более ранние оценки основывались на тех минимальных изменениях параметров формант, которые слушатели еще могли заметить (см. раздел 7.2). Полученная отсюда необходимая точность квантования дана в табл. 8.4.
Предыдущая << 1 .. 121 122 123 124 125 126 < 127 > 128 129 130 131 132 133 .. 149 >> Следующая

Реклама

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed

Есть, чем поделиться? Отправьте
материал
нам
Авторские права © 2009 BooksShare.
Все права защищены.
Rambler's Top100

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed