booksshare.net -> Добавить материал -> Лингвистика -> Джеймс Л. Фланаган -> "Анализ, синтез и восприятие речи" -> 122

Анализ, синтез и восприятие речи - Джеймс Л. Фланаган

Джеймс Л. Фланаган Анализ, синтез и восприятие речи. Под редакцией Пирогова А.А. — М.: Связь, 1968. — 395 c.
Скачать (прямая ссылка): analizsintivocrech1968.djvu

Предыдущая << 1 .. 116 117 118 119 120 121 < 122 > 123 124 125 126 127 128 .. 149 >> Следующая

ВОКОДЕРЫ С СОКРАЩЕННОЙ ИЗБЫТОЧНОСТЬЮ

331

которого получается наилучшее согласование с мгновенным спектром речи. Код, обозначающий найденный таким способом эталон, передается к синтезатору вокодера вместе с данными об основном тоне и с сигналом тон-шум. На приемной стороне на модуляторы синтезатора подаются сигналы, создающие спектр, приближающийся к спектру переданного эталона. Сигнал основного тона управляет генератором возбуждения. Плавность переходов от одного эталона звука к следующему достигается включением фильтров.

В старом варианте устройства использовался 10-полосный вокодер всего лишь с десятью запасенными эталонами. Это устройство показано на рис. 8.5. Запасенные эталоны соответствовали стационарным спектрам четырех длительных согласных

Анализатор

Исходная речь

D

Вход

Сигналы \зталоно6\

Синтезатор

Синтезированная

1 і Речь Л

ы

выход

Рис. 8.5. Вокодер с эталонами спектральных функций (Дадли, 1958)

и шести гласных (s, f, г, п и і, І, є, а, о, и, соответственно). Двум слушателям удавалось правильно опознавать произносимые одним диктором (для речи которого были получены спектральные эталоны) цифры с достоверностью 97 и 99% соответственно. Однако при прослушивании обычных односложных сигналов разборчивость уменьшалась примерно до 50%. Добавление шести эталонов незначительно увеличило разборчивость. При этом необходимая для передачи полоса частот составляла всего около

332

СИСТЕМЫ СИНТЕТИЧЕСКОЙ ТЕЛЕФОНИИ

50 гц, т. е. примерно в 60 раз меньше, чем в обычном канале телефонной связи. Несмотря на то, что разборчивость и качество речи в данном устройстве несомненно недостаточны для большинства прикладных целей, прибор демонстрирует возможности передачи в узкой полосе ограниченного ансамбля сообщений при работе с ограниченным числом дикторов.

Удивительные результаты, получающиеся при работе всего лишь с десятью эталонами, вызывают вопрос: сколько эталонов потребуется для того, чтобы приблизиться к характеристикам обычного вокодера? Этот вопрос рассматривается Смитом (Smith, 1957, 1963). Выходные сигналы анализатора полосного вокодера дискритизируются частотой 50 гц, нормируются по амплитуде и квантуются. Цифровое описание мгновенного спектра сравнивается с большим числом эталонов, хранимых в цифровой форме в блоке оперативной памяти. Как и в описанной выше системе, здесь также находится эталон, наилучшим образом согласующийся с данной реализацией мгновенного спектра; отличие состоит лишь в использовании цифровых методов обработки информации. Код найденного таким способом эталона передается по каналу связи. Задача состоит в определении наименьшего числа эталонов, обеспечивающих заданное качество работы. Хотя рассмотренные методы обработки не могут обеспечить лучшее качество речи, чем обычный вокодер, они могут дать большую экономию полосы, чем полосный вокодер. Скорости передачи цифровой информации о спектральных эталонах и о характеристиках возбуждения оцениваются величинами от 400 до 800 de. ед./сек (Смит, 1957, а, 1963).

8.3. Полувокодеры 8.3.1. Проблема улучшения естественности

До сих пор вокодеры применялись лишь для связи в особых условиях, хотя они позволяют передавать речь с высокой разборчивостью при примерно десятикратной компрессии полосы частот. На коммерческих линиях вокодеры совсем или почти совсем не использовались, в первую очередь, из-за недостаточного качества и натуральности речи. Получаемая синтезированная речь отличается «машинным акцентом», а ее натуральность заметно хуже, чем в обычных телефонных каналах.

Это происходит в основном из-за недостатков процесса выделения информации о возбуждении, т. е. из-за измерения основного тона, и различении вокализованных и турбулентных звуков. Хорошо известна трудная задача автоматического выде-

ПОЛУВОКОДЕРЫ

333

ления основного тона. Необходимо устройство, точно отличающее высоту голоса при почти десятикратном изменении частоты основного тона (при передаче мужских и женских голосов) и работающее при большом диапазоне изменения интенсивности. Устройство должно также работать в трудных условиях, когда речь произносится в зашумленном и реверберирующем помещении. Кроме того, речевой сигнал может быть подвергнут частотному ограничению, в результате которого несколько его нижних гармоник обрезается и основную частоту приходится получать путем его нелинейной обработки. Эти трудности еще более усугубляются изумительной способностью человеческого уха обнаруживать малейшие неточности основного тона (см. раздел 7.2.5).

Некоторые из многочисленных попыток решить проблему выделения основного тона коротко описаны в разделе 5.3. Здесь можно лишь отметить, что еще предстоит найти ряд решений для доведения качества речи полосного вокодера до качества речи при обычных методах кодирования. Это общее замечание в такой же степени относится и к различению вокализованных и турбулентных звуков, которое также производится в канале основного тона.

Трудности автоматического анализа возбуждения можно обойти, применив полувокодер (Дэвид, Шредер, Логан и Пре-стиджиакомо, Шредер и Дэвид — David, Schroeder, Logan and Prestigiacomo, Schroeder and David). В этом устройстве информация о возбуждении передается необработанной полосой низкочастотной части спектра речи. На приемном конце сигнал в этой полосе — нулевой канал1)—подается на нелинейное устройство для получения сигнала с широкополосным равномерным спектром. Этот сигнал далее используется как источник возбуждения обычного полосного вокодера, синтезирующего спектр выше нулевого канала. Блок-схема полувокодера показана на рис. 8.6.

Предыдущая << 1 .. 116 117 118 119 120 121 < 122 > 123 124 125 126 127 128 .. 149 >> Следующая