Анализ, синтез и восприятие речи - Джеймс Л. Фланаган
Скачать (прямая ссылка):
Одним из самых первых заслуживающих внимания формантных вокодеров было устройство параллельного типа (Мансон и Монтгомери — Munson and Montgomery), показанное на рис. 8.9. В анализаторе спектр речевого сигнала делится на четыре полосы. В каждой полосе измеряются усредненная частота пересечения нулей F и усредненная амплитуда А '). Получаются сигналы, напряжения которых пропорциональны этим величинам. Эти восемь параметров, определяющие амплитуды и частоты формант и основного тона, передаются на синтезатор.
Синтезатор состоит из устройства возбуждения, трех переменных соединенных параллельно резонаторов и четвертой параллельной ветви с неподвижным фильтром нижних частот. Вокализованное (импульсное) возбуждение в параллельных ветвях включается амплитудой основного тона A0, которая также управляет амплитудой сигнала, проходящего через ветвь, содержащую фильтр низших частот. Как и в полосном вокодере, частота импульсов возбуждения задается величиной F0. Турбулентное (шумовое) возбуждение параллельных ветвей задается амплитудой A3. Амплитуды и частоты трех формантных ветвей непрерывно управляются, а эде на их выходах складываются.
Величины разборчивости системы составляют для гласных около 100%, для согласных около 70%. Занимаемая восемью управляющими сигналами общая полоса частот составляет около 300 щ, т. е. примерно столько же, что и в полосном вокодере.
Впоследствии было создано большое количество других вариантов формантных вокодеров параллельного типа (например, Чанг—Chang; Кампанелла—Campanella; Айерс—Ayers; Стед и Джонс — Stead and Jones; Говард—Howard). Два из них будут
') Отметим, что в этой конструкции в обе верхние полосы обычно попадает больше одной форманты. Измеренные амплитуды и частоты нх определяют їв первом приближении 'наиболее сильные форманты їв каждой полосе.
342
СИСТЕМЫ СИНТЕТИЧЕСКОЙ ТЕЛЕФОНИИ
упомянуты в дальнейшем при рассмотрении дискретизации и уплотнения.
Одна из первых попыток реализовать систему каскадного ти-ла также позволила получить существенную экономию полосы
анализатор Сигналы, Синтезатор
определяющие спектр
Мсходная речь
он
фВЧ \ №стоЩ---
3000 гц
1
Перестрой бающийся \реэонанс I
Перестраи-баюищйея
Гезонанс
Перестраи- \ а
бающийся f~\ і —/
11- І резонанс *\х 1-г-ГТ
1 і ' і Выход
ФНЧ Ш s,
Синтезированная речь
Рис. 8.9. Формантный вокодер параллельного типа (Маноон н Монтгомери)
частот управляющих сигналов (Фланаган и Хаус — Flanagan and Hayse). Вариант из рассмотренных в этой работе схем показан на рис. 8.10. В ней используются следующие управляющие сигналы: частота основного тона F0; амплитуда вокализованного возбуждения Av; три частоты формант Fi, F2, F3 (перекрывающие диапазон примерно от 100 до 3000 гц); частота единственного сравнительно широкого фрикативного шумового резонанса
ФОРМАНТНЫЕ ВОКОДЕРЫ
343
Fn (гласного резонанса в диапазоне 30004-7000 гц) и амплитуда шумового возбуждения An.
Данные о частоте формант получаются с помощью анализатора с выбором максимума описанного в разделе 5.2. Амплитуда основного тона определяется как выпрямленное и сгла-
чератор
1AWiS*»- I Моди-\рньшге-^т0р
А,
F,
Широкополосный, шум
Моду-
Перестраи-даюишйся
лятор
F2
Г ТІ
Рис. 8.10. Формантный вокодер последовательного типа (Фланаган и
Хаус)
женное напряжение на выходе фильтра нижних частот, а амплитуда шумового возбуждения — как выпрямленный и сглаженный сигнал в полосе 3000-4-7000 гц. Основной тон измеряется такой же схемой выделения, как и в полосном вокодере. Каждый из семи управляющих сигналов ограничивался полосой менее чем 10 гц фильтром нижних частот, так что общая занимаемая ими полоса частот была порядка 60 гц.
Все вокализованные звуки производились верхней цепью-резонаторов схемы рис. 8.10, соединенных каскадно. Турбулентные звуки вырабатывались с помощью последовательно-параллельной цепи, вводящей в передаточную функцию наряду с полюсами и нули. Данные о самих частотах нулей не передавались.
Хотя компрессия полосы и была высокой, система оказалась сравнительно плохой. Артикуляция гласных (при передаче бессмысленных слогов) была порядка 82%, согласных — в среднем 27%. Исследование отзывов слушателей по методу «матрицы конфузий» показало, что они мало путали глухие звуки со звонкими. Однако при различении звонких взрывных и носовых ошибок было много; синтезатор оказался поистине неспособным синтезировать эти звуки. Кроме того, были ошибки в различении аффрикатой и взрывных, которые объясняются, главным образом, временными неточностями из-за сильного ограничения полосы управляющих сигналов.
Недавно путем моделирования на цифровой вычислительной машине усовершенствованного варианта синтезатора сделана
344
СИСТЕМЫ СИНТЕТИЧЕСКОЙ ТЕЛЕФОНИИ
попытка исправить некоторые из этих недостатков (Фланаган, Коукер и Бирд — Flanagan, Coker and Bird). В синтезаторе предусмотрена дополнительная пара полюс—нуль в ветви для вокализованных звуков и управляемый нуль в ветви для глухих звуков (см. раздел 6.2). При соединении с моделированным на цифровой машине тщательно построенным анализатором формант этот вокодер работал неожиданно хорошо (Коукер). Фор-мантный анализ в ЭВМ производился по методу детальной подгонки спектра и обратной фильтрации, а цифровая обработка позволяла получить гораздо лучшую точность, чем при аналоговом устройстве. Точность слежения за формантами, а также более подробное описание свойств системы и возбуждения с помощью дополнительной пары нуль — полюс вносят, по-видимому, существенный вклад в улучшение качества синтезированной речи.