booksshare.net -> Добавить материал -> Лингвистика -> Джеймс Л. Фланаган -> "Анализ, синтез и восприятие речи" -> 118

Анализ, синтез и восприятие речи - Джеймс Л. Фланаган

Джеймс Л. Фланаган Анализ, синтез и восприятие речи. Под редакцией Пирогова А.А. — М.: Связь, 1968. — 395 c.
Скачать (прямая ссылка): analizsintivocrech1968.djvu

Предыдущая << 1 .. 112 113 114 115 116 117 < 118 > 119 120 121 122 123 124 .. 149 >> Следующая

С помощью десяти спектральных каналов, изображенных в нижней части схемы, измеряется мгновенный спектр амплитуд на десяти дискретных частотах. В каждый канал входит полосовой фильтр (первоначально ширина полосы пропускания равнялась 300 гц), выпрямитель и фильтр нижних частот (полоса пропускания 25 гц). Спектр измеряется точно в соответствии с определением, приведенным в разделе 5.1. В предыскажаю-щем выравнивателе осуществляется частотная коррекция сигнала таким образом, чтобы средние мощности сигналов на выходах анализатора спектра были примерно одинаковы. Следовательно, характеризующие спектр канальные сигналы лежат примерно в одинаковом диапазоне амплитуд и могут передаваться с одинаковым отношением сигнал/шум. Эти одиннадцать сигналов с шириной спектра по 25 гц занимают общую полосу частот менее 300 гц. Для передачи сигналов нужно использовать частотное или временное уплотнение.

На приемной стороне спектр речи восстанавливается по переданным данным. Сигнал возбуждения, создаваемый либо импульсным генератором с постоянной средней мощностью колебаний и с переменной частотой, модулируемой сигналом основного тона, либо широкополосным генератором шума, подводится к набору полосовых фильтров, идентичному фильтрам передающей стороны. Выходные сигналы фильтров модулируются по амплитуде спектральными сигналами. Таклм образом, воссоздается мгновенный спектр, приближающийся к спектру, измеренному на передающей стороне. При правильном построении системы можно получить удивительно разборчивую синтезированную речь. Спектрограммы исходной речи и речи, синтезированной 15-канальным вокодером, показаны на рис. 8.3. Такие важные характеристики, как формантная структура и структура тон-шум, довольно хорошо сохраняются в синтезированной речи.

Со времени создания первого вокодера было построено много различных вариантов и разновидностей этой системы. При конструировании варьировали число фильтров анализатора и их расстановку по шкале частот, изменяли полосы фильтров, степень их перекрытия и избирательность. Подобным же образом иссле-

11—71

322

системы синтетической телефонии

довали много различных типов систем выделения основного тона и схем тон-шум. Не остались без внимания и характеристики выпрямителей и фильтров нижних частот. Число используемых каналов изменялось от 8 до 100, частотные характеристики фильт-

,$> ЄЄ № Cf M VH Г ? Я TlON S

Рис. 8.3. Спектрограмма речи, переданной по 15-полосиому вокодеру

ров выбирались самые различные, начиная от широкополосных с горизонтальным участком и крутыми скатами и кончая узкополосными характеристиками одиночного контура. Объем данной книги не позволяет рассмотреть подробно все эти исследования. Основные характерные результаты изложены в работах следующих авторов: Р. Л. Миллер—Я. L. Miller, 1953; Дэвид— David, 1956; Фильбиг и Хаазе — Vilbig and Haase, 1956, a, b, Слеймакер—Slaymaker; Ширм и Холмс—Schearm and Holmes: Купер—Cooper, Петерсон и Фарингер—Peterson and Fahringer; Вернер и Даниельсон—Werner and Danielsson; Ягги и Масон— Jaggi and Mason; Стал и Кассл—Steele and Cassel, 1963, a, b.

Хотя разборчивость синтетической речи может быть и высокой, натуральность и качество заметно ухудшаются даже в лучших современных полосных вокодерах. Для устройств данного типа характерно «машиноподобное» звучание синтезированной

ПОЛОСНЫЕ ВОКОДЕРЫ

323

речи. Это объясняется несколькими факторами. Одним из них является кодирование характеристик возбуждения. Дискриминатор тон-шум часто допускает заметные ошибки. Тонкая структура временных изменений основного тона может не сохраниться, а при некоторых условиях автоматическое устройство выделения основного тона может определять частоту с ошибкой на октаву. Звонкие звуки синтезируются с помощью импульсного источника, форма и фазовый спектр колебаний которого не отражают некоторых особенностей и изменений колебаний, создаваемых голосовыми связками. Недостатком спектрального анализа является ограниченная разрешающая способность, ибо всегда конечны число полосовых фильтров, ширина полосы пропускания этих фильтров и расстояния между соседними фильтрами по оси частот. А недостаточность разрешающей способности может привести, например, к расширению формант речи при синтезе. Далее, используемые на практике выпрямители и усилители' могут вносить искажения ввиду большого динамического диапазона спектра амплитуд.

Основная конструкция полосного вокодера может быть улучшена различными способами. Существенных трудностей, связанных с проблемой возбуждения, можно избежать в значительной степени, если использовать полувокодер, который будет рассмотрен в следующем разделе. «Сепстральныш> метод выделения основного тона, описанный в разделе 5.3, обещает дать более точные данные об основном тоне и позволить с большей достоверностью принимать решение тон-шум. Проблемы спектральных представлений могут быть частично разрешены путем тщательного построения фильтров. Кроме того, полезны некоторые дополнительные преобразования.

Предыдущая << 1 .. 112 113 114 115 116 117 < 118 > 119 120 121 122 123 124 .. 149 >> Следующая