Анализ, синтез и восприятие речи - Джеймс Л. Фланаган
Скачать (прямая ссылка):
(8.9)
ДРУГИЕ МЕТОДЫ СОКРАЩЕНИЯ ПОЛОСЫ
365
Если же f{t) заменить его зеркальным изображением /(—t), то выходной сигнал примет вид
OO
U{t)= ^gk{x)f{t + x)dx. (8.10)
о
Значение .U0, т. е. мгновенное значение в момент окончания сигнала f(t) с обращенной осью времени, совпадает с ch. Искомые коэффициенты получаются в результате измерений для всех
gm(t).
Пожалуй, более приемлемым на практике примером использования ортогональных функций для передачи речевой волны в естественном масштабе времени является система, изображенная на рис. 8.20а (Мэнли и Клейн — Manley and Klein). С помощью выделителя основного тона при анализе звонких звуков формируется последовательность импульсов с частотой основного тона. Эти импульсы подаются в качестве воздействия на входы четырехполюсников, на выходах которых получается совокупность ортогональных функций gm(t), совпадающих с соответствующими импульсными реакциями четырехполюсников. Коэффициенты разложения (8.5) получаются вычислением выражения ^
ck = ] eAt)f(t) dt, (8.11)
о
где T — период основного тона. Вычисления можно выполнить с помощью умножителей, интеграторов с установкой на нуль, отсчетных и запоминающих устройств. Импульсы основного тона управляют устройствами отсчета и запоминания значения интеграла в конце периода Т, а также служат для установки интеграторов на нуль.
Перед подачей в многоканальную систему уплотнения частота импульсов основного тона с помощью частотомера преобразуется в аналоговый сигнал, а меняющиеся во времени коэффициенты C\(t), c2(t),..., cm(t) спаживаются нч фильтрами.
В месте приема (рис. 8.206) сигнал восстанавливается период за периодом согласно равенству (8.5). Модулированная по частоте сигналом основного тона последовательность импульсов воздействует на такую же совокупность четырехполюсников с откликами gm{t), выходные сигналы которых соответственно умножаются на коэффициенты <,„(/). Их сумма является приближением к первоначальным звгчким звукам.
Глухие, апериодические, зв ки обрабатываются несколько иначе. С некоторой идеализацие \ принимается, что их длитель-
13—71
366
СИСТЕМЫ СИНТЕТИЧЕСКОЙ ТЕЛЕФОНИИ
а)
Речь
выдели -тель ОТ
Импульсы
\
Детектор неоздучен-ноети
Установка нуля
Отсчета
запони
нание
Отсчет и запоминание
і
/(многоканальной системе передачи
Отсчет и запоми нание
Частомер
ОТ (сонорные)
Cm P
Глухие
U
Рис. 8.20. Система передачи речи с использованием ортогональных функций: а) анализатор; б) синтезатор (Мэшш и Клейи)
ДРУГИЕ МЕТОДЫ СОКРАЩЕНИЯ ПОЛОСЫ
367
ность соответствует одному периоду ОТ. С началом появления глухого звука—типа взрывного, если он сравнительно короткий, в месте передачи и приема генерируется один импульс ОТ. Сведения о наличии глухих звуков передаются на приемник параметром u(t). Если глухой звук продолжителен (например, фрикативный), генератор выдает несколько импульсов с достаточно длительным периодом, так, чтобы эффект периодичности оставался незаметным для слуха.
Разложение мгновенного амплитудного спектра. Известно одно предложение описывать мгновенный амплитудный спектр с помощью ряда ортогональных функций с целью сокращения полосы частот при кодировании речи (Пирогов). Частотное решение основано на использовании гармонического ряда Фурье, когда, по существу, определяется спектр амплитудного спектра (рис. 8.21).
речи, о—:
Выселение основного тона
Перемножители
Диализатор спектра с разверткой во времени
cos Silt cos 2SLt
К*)—{EHi
s(t) *— cos Sit L
/^"7*»^"^ ^iT Постояннее"
Интеграторы
т
г©—И
*¦—cos 3Ut
Возоу
нив D UJlUU
жве-
10НОМ
гумам
т тлшуиппис г
напряжение Sin Sit
-©—[ZEl—1
— tin ЗО*
3Ln 2SIt LP
L0-[77}
*-—.o/./i 3Rt
SLn 3Rt
Рис. 8.21. Метод описания мгновенного спектра речи с помощью коэффициентов ряда Фурье и синтеза речи с помощью этих коэффициентов
(Пирогов)
Информация о мгновенном амплитудном спектре здесь получается в виде функции времени с частотой развертки 1/Т. Эта операция может быть выполнена по методу, используемому в анализаторе формант (см. раздел 5.2), или же с помощью анализатора скэн-вокодера (раздел 8.1), или же просто с помощью
13*
368
СИСТЕМЫ СИНТЕТИЧЕСКОЙ ТЕЛЕФОНИИ
лоследовательного анализатора. Частота 1/7" обычно выбирается в диапазоне от 25 до 50 гц, в зависимости от требований к качеству передачи. Так же, как в скэн-вокодере, спектральное описание s(t) передается по каналу с узкой полосой частот. Как отмечается, достаточна полоса от 75 до 250 гц. Должна также передаваться информация о характеристиках возбуждения, т. е. об основном тоне и соотношении тон-шум. Так же, как в обычном вокодере, предполагается, что для передачи этих данных достаточна полоса 25—50 гц. Приемник должен быть синхронизирован с передатчиком.
В приемнике производится разложение в ряд Фурье сигнала, описывающего спектр: .
как обычно, коэффициенты и Q = 2n/T. Практически, коэффициенты Фурье получаются путем умножения s(t) на выходные эдс нескольких гармонических генераторов, синхронизированных с частотой развертки Q. Как утверждается, значение N от 3 до 5 достаточно для адекватного спектрального описания (Пирогов).