booksshare.net -> Добавить материал -> Лингвистика -> Джеймс Л. Фланаган -> "Анализ, синтез и восприятие речи" -> 121

Анализ, синтез и восприятие речи - Джеймс Л. Фланаган

Джеймс Л. Фланаган Анализ, синтез и восприятие речи. Под редакцией Пирогова А.А. — М.: Связь, 1968. — 395 c.
Скачать (прямая ссылка): analizsintivocrech1968.djvu

Предыдущая << 1 .. 115 116 117 118 119 120 < 121 > 122 123 124 125 126 127 .. 149 >> Следующая

Хотя слабые фрикативные типа английского th в данной системе воспроизводятся неудовлетворительно, беды большой в этом нет, так как звуки такого типа встречаются относительно редко. 30%) ошибок восприятия согласных, не занимающих начальной позиции (т. е. для слогов, начинающихся с гласных), свидетельствуют о недостатках работы системы тон-шум. Подобные слоги ошибочно воспринимались как начинающиеся с согласных. Тем не менее разборчивость согласных большей частью достаточно высока.

Сходные результаты могут быть получены и при дискретизации вокодерных сигналов по времени с последующим квантованием и кодированием в виде двоичных импульсов. В табл. 8.2 приведены типичные значения разборчивости согласных для одной из первых моделей 10-полосного вокодера, работающего с цифровой системой передачи. В приведенные значения скорости передачи данных не включена информация об основном тоне. Использовалось четыре различных значения уровней квантования [неопубликованные результаты, полученные Р. Л. Миллером и Д. К. Ганнеттом (R. L. Miller and D. К. Gannett) и приведенные в работе Дэвида (David, 1956)].

ВОКОДЕРЫ С СОКРАЩЕННОЙ ИЗБЫТОЧНОСТЬЮ

329

Таблица 8.2

ЗАВИСИМОСТЬ РАЗБОРЧИВОСТИ СОГЛАСНЫХ В ВОКОДЕРЕ OT СКОРОСТИ ПЕРЕДАЧИ ЦИФРОВОЙ ИНФОРМАЦИИ

Число уровней квантования
6
5
4
3

Скорость передачи двоичных импульсов, дв.ед./сек
1300
1160
1000
788

Разборчивость согласных, %
82
79
79
69

По-видимому, можно надеяться, что более совершенные конструкции обеспечат несколько большую разборчивость. Например, в 16-полосном вокодере с частотой дискретизации полосных сигналов 30 гц при кодировании каждого отсчета 3 дв. ед. (т. е. при общей скорости передачи 1440 дв. ед./сек) разборчивость согласных составляет около 90% (Дэвид, 1956).

8.2. Полосные вокодеры с сокращенной избыточностью

8.2.1. Вокодер с селекцией максимумов

Общепризнано, что спектральные сигналы полосного вокодера не вполне независимы, так что имеется возможность произвести дополнительную обработку сигналов и сделать их ортогональными. Методы дальнейшего исключения избыточности рассмотрены в ряде исследований.

Полученные в гл. III результаты расчетов характеристик речевого тракта свидетельствуют, что величины спектра речи на соседних частотах тесно связаны. Например, спектр гласных звуков, формируемый голосовым трактом, полностью определяется частотами формант. Вследствие этого соседние спектральные сигнал-параметры вокодера обычно сильно коррелированы. В одной из систем передачи, в так называемом вокодере с селекцией максимумов, предпринята попытка исключить указанную зависимость. В этом вокодере передается лишь небольшое количество (от 3 до 5) спектральных сигнал-параметров, представляющих в данный момент локальный максимум мгновенного спектра. Используемая схема аналогична описанной в разделе 5.2 схеме выделения формант. Запрещающие соединения предотвращают возможность выбора двух соседних каналов. Номера выбранных каналов с максимальными значениями спек-

330

СИСТЕМЫ СИНТЕТИЧЕСКОЙ ТЕЛЕФОНИИ

тра и соответствующие им величины максимумов передаются к обычному синтезатору 18-полосного вокодера. Кроме того, передается сигнал основного тона. Таким образом, в каждый момент времени работает лишь несколько каналов синтезатора. При этом разборчивость бессмысленных слогов достигает 70%, требуемая скорость передачи цифровой информации оценивается около 1000 дв. ед./сек (Петерсон и Купер — Peterson and Cooper).

8.2.2. Линейное преобразование спектральных сигнал-параметров полосного вокодера

В данном методе, близком к изложенному выше методу, выявляется зависимость между спектральными сигнал-параметрами и для исключения избыточности осуществляется переход к меньшему числу сигналов (Крамер и Мэтьюс — Kramer and Mathews). Из п полосных сигналов образуется набор т сигналов, где /п<п, причем новые сигналы представляют собой линейную комбинацию п исходных сигналов. Постоянные коэффициенты линейного преобразования образуют матрицу (т-п). Практически матрица преобразования реализуется в виде набора из (т-п) постоянных сопротивлений. Декодирование т сигналов с целью приблизительного восстановления п исходных сигналов производится с помощью линейного преобразования, обратного матрице (т-п). Коэффициенты преобразования получаются из условия минимизации среднеквадратичного отклонения между п исходными сигналами и п восстановленными сигналами.

Описанный метод был применен к спектральным сигнал-параметрам 16-полосного вокодера (т. е. я= 16). Сообщалось, что при сокращении до т=6 синтезированная речь оставалась почти полностью разборчивой, хотя качество речи становилось существенно хуже, чем в 16-полосном вокодере. При /я= 10 качество синтезированной речи оценивалось выше, чем в обычных 10-полосных вокодерах. В последнем случае достигается дополнительная экономия емкости канала примерно в 1,5 раза.

8.2.3. Вокодеры с эталонами спектральных функций

В этом вокодере спектральные данные, передаваемые сигнал-параметрами, классифицируются по принадлежности к ограниченному числу образцов (Дадли, 1958). Анализ звуков производится согласно описанной в разделе 5.5 схеме опознания образов. В каждый момент времени из большого числа запасенных спектральных эталонов определяется тот эталон, для

Предыдущая << 1 .. 115 116 117 118 119 120 < 121 > 122 123 124 125 126 127 .. 149 >> Следующая