booksshare.net -> Добавить материал -> Лингвистика -> Джеймс Л. Фланаган -> "Анализ, синтез и восприятие речи" -> 128

Анализ, синтез и восприятие речи - Джеймс Л. Фланаган

Джеймс Л. Фланаган Анализ, синтез и восприятие речи. Под редакцией Пирогова А.А. — М.: Связь, 1968. — 395 c.
Скачать (прямая ссылка): analizsintivocrech1968.djvu

Предыдущая << 1 .. 122 123 124 125 126 127 < 128 > 129 130 131 132 133 134 .. 149 >> Следующая

Имея в виду ограниченность данных по восприятию, на которых основаны эти оценки, близость полученных цифр к соответствующим цифрам табл. 8.3 поразительна. Отсюда идея о том, что психоакустические измерения, подобные рассмотренным в

ФОРМАНТНЫЕ ВОКОДЕРЫ

34?

Таблица 8.3

КВАНТОВАНИЕ СИГНАЛОВ ФОРМАНТНОГО ВОКОДЕРА (ПО СТЕДУ И ВЕСТОНУ — STEAD AND WESTON)

Число

Параметр

уровней
двоичных единиц

F1
16
4

F2
16
4

F3
8
3

A1
8
3

Аг
8
3

A3
2
1

Т/Ш
2
1

F0
641)
6

Всего 27

') Установлено для линейного кодирования частоты основного тона.

Таблица 8.4

РЕЗУЛЬТАТЫ ОПРЕДЕЛЕНИЯ НЕОБХОДИМОЙ ТОЧНОСТИ КВАНТОВАНИЯ СИГНАЛ-ПАРАМЕТРОВ. ФОРМАНТНОГО ВОКОДЕРА

Параметр
Число

уровней
двоичных единиц

F1
14
3,8

Fz
14
3,8

F3
9
3,2

A1
3
1,6

A2
3
1,6

A3
2
1,0

A0
40
5,3

Всего 20,3

Примечание. Оценки основаны на определении минимально заметных изменений параметров при синтезе гласных (Фланаган, 1957, Ь). Амплитудные параметры прологарифмированы.

гл. VII, могли бы вполне законно применяться для достаточно надежной оценки работы различных систем.

После квантования сигналы (рис. 8.11) в виде ИКМ поступают на передачу. При частоте отсчетов 32 гц их объем составляет 672 дв. ед./сек, а вместе с основным тоном, кодируемым 6 разрядами,—864 дв. ед./сек, что можно передавать по большинству обычных каналов шириной 3000 гц. Сообщается, что хогя подробных испытаний не проводилось, разборчивость и качество передаваемого в цифровом виде сигнала лишь незначительно отличаются от аналоговой передачи. При работе системы замечено интересное явление: спектр шума квантования, обусловленный дискретизацией управляющих сигналов, лежит за пределами диапазона звуковых частот. Этом шум скорее связан с квазислучайной неопределенностью в процессе синтеза. Субъективный характер этого явления полностью не исследован.

Проведено предварительное исследование роли ошибок в. цифровой передаче параметров формантного вокодера (Кам-панелла, Каултер и Айронс—Campanella, Coulter and Irons). Система, с которой проводились испытания, аналогична пока-

348

СИСТЕМЫ СИНТЕТИЧЕСКОЙ ТЕЛЕФОНИИ

занной на рис. 8.11 (за исключением того, что переключение тон-шум производилось основным тоном. Общая полоса частот управляющих сигналов составляла 140 гц. Параметры формант квантовались 3 разрядами, основной тон—5. При частоте отсчетов 43,5 гц, уплотненный во времени сигнал занимает канал объемом около 1000 дв. ед./сек. Утверждается, что при передаче с такой скоростью артикуляция слов без ошибок составляет около 80°/о- При частоте ошибок, составляющей 3% от скорости сигнала, артикуляция падает на 15%- Это ухудшение эквивалентно уменьшению отношения сигнал/шум при аналоговой передаче на 9,5 дб.

8.5.3. Формантные полувокодеры

Описанный в разделе 8.3 метод возбуждения голосом был применен и к формантному вокодеру (Фланаган, 1960, b). Блок-схема формантного полувокодера показана на рис. 8.12. Нулевой канал шириной около 400 гц (от 300 до 700 гц) передается

Нулевой канал

HKn

Анализатор 'спектра

к>4

Вход речи

выделитель срорманты

Выделитель срорманты

Выделитель срорманты

HK0

жкч

Возбуждение^

«і

Fi

M

Линия передачи

Рис. 8.12. Блок-схема формантного полувокодера (Фланаган, 1960)

без обработки. Диапазон частот от 800 до 3200 гц представляется тремя формантами, амплитуды и частоты которых передаются в канал. Выделение формант производится по методу выбора максимума, описанному в гл. V. Все управляющие сигналы ограничиваются верхней частотой 17 гц. Общая полоса частот получается немногим больше 500 гц.

АРТИКУЛЯТОРНЫЕ ВОКОДЕРЫ

349

В синтезаторе производится расширение спектра нулевого канала. Он клиппируется, дифференцируется, после чего импульсы одной полярности запускают ждущий мультивибратор. Его выходные импульсы используются как сигнал возбуждения формантных каналов. Турбулентные звуки создают на выходе мультивибратора всплекс шума. Звонкие звуки создают периодические импульсные последовательности, в которых иногда имеется более одного импульса на период.

Такой метод в общем дает улучшение качества и натуральности речи, передаваемой формантным вокодером. Но поскольку основную часть общей полосы частот занимает нулевой канал, формантный полувокодер ненамного экономичнее полосного.

В другом подобном вокодере для возбуждения голосом спектр в области первой форманты используется для формирования второй и третьей формант (де Джаге — de Jager, частная переписка, 1961). Выделяются и передаются в необработанном виде по нулевому каналу частоты от 300 до 800 гц. В двух других формантных областях от 800 до 2000 гц и от 2000 до 3200 гц соответственно счетчики переходов через нуль, выпрямители и интеграторы выдают сигналы, определяющие амплитуды и частоты формант. Каждый из этих четырех сигналов ограничивается верхней частотой 40 гц и вместе с сигналом нулевого канала передается на приемную сторону.

Предыдущая << 1 .. 122 123 124 125 126 127 < 128 > 129 130 131 132 133 134 .. 149 >> Следующая