Анализ, синтез и восприятие речи - Джеймс Л. Фланаган
Скачать (прямая ссылка):
вом гребенки полосовых фильтров и через аналого-цифровой преобразователь вводится в вычислительную машину. Синтезированные спектры речевого типа производятся вычислительной машиной с помощью модели распределения полюсов и нулей речевого тракта и возбуждающего его сигнала. (При генерировании синтезированных спектров учитываются также свойства
198
устройства для анализа речи
гребенки фильтров.) Как и в синхронном с основным тоном анализе, эта модель основана на акустических соотношениях, рассмотренных в гл. III. Действительный и синтезированный спектры для каждого момента времени сравниваются между собой, с последующим вычислением взвешенной квадратиче-ской ошибки. Способ сравнения спектров иллюстрируется рис. 5.25.
По результатам вычисления ошибки между данным и смежным спектральными образцами предварительно составленная программа управления определяет процедуру регулирования местоположения полюсов и нулей для подгоняемого синтезированного спектра. Когда ошибка подгонки достигнет минимального значения, машина запоминает расположение полюсов и нулей модели голосового тракта и характер сигнала возбуждения, выбранного для этого спектра. При этом машина выполняет пять операций: 1) хранение в памяти поступивших извне реальных .речевых спектров; 2) генерирование синтезированных спектров; 3) регулировку и подгонку синтезированных спектров; 4) вычисление разницы между спектрами в соответствии с заранее введенным критерием ошибки и 5) выделение и хранение параметров, которые обеспечивают минимальную ошибку. При желании сравнение и регулировка могут производиться человеком.
В принципе, процедура подгонки применима к спектрам как гласных, так и согласных звуков, однако подбираемая модель для согласных звуков, как правило, является более сложной. Типичный результат такой процедуры показан на рис. 5.26. На. рис. 5.26а показана звуковая спектрограмма произнесенного звукосочетания /h э b I Ь/ с отложенными вверху по оси времени интервалами дискретизации. На рис. 5.266 изображены найденные машиной следы формант для гласного участка второго слога
а)
Частота —*-
Рис. 5.26. Идеализированная иллюстрация процедуры подгонки спектров, приведенной на рис. 5.24. Результат ошибки при
вычислении: а) частоты форманты; б) ширины полосы форманты:
/ — рассчитанный спектр, 2 — входной спектр, 3 — разностная кривая
формантный анализ речи
199
(т. е. для /I/). Масштабные отметки по оси абсцисс на рис. 5.266 соответствуют масштабу шкалы, изображенной в верхней части рис. 5.26а. Верхняя диаграмма рис. 5.266 представляет собой квадратичную ошибку б)
спектральной подгонки. зоо,,, ь, | м і і | м і і і і і м і і і і і [ і і і
Отсчеты спектра, (через интер8амы 8,3мсек)
Рие. 5.26. Следы формант, полученные по методу подгонки кратковременных
¦спектров речи иа ЭВМ: а) спектрограмма исходной речи; б) следы выделенный формант л квадратичная ошибка измерения (Беля и др.)
Аналогичный принцип положен в основу работы другого промоделированного на вычислительной машине формантного искателя (Кокер — Coker). Его способ анализа сочетает в себе метод отбора по пиковым значениям и метод подгонки спектров. Мгновенный спектр получается с помощью гребенки фильтров, соединенной с детекторами и фильтрами нижних частот. Выходные напряжения развертываются с помощью электронного коммутатора, в результате чего образуется функция времени, отображающая спектральные сечения, которая вводится затем в аналого-цифровой преобразователь. Полученный в цифровой форме выходной сигнал, описывающий последовательность спектральных распределений, записывается на магнитную ленту, совместимую с устройством записи вычислительной машины. Затем эта лента последовательно вводится в машину,
200
устройства для анализа речи
благодаря чему и достигается хранение в памяти машины информации о мгновенных спектрах.
В соответствии с программой анализа сначала определяется' местоположение абсолютного максимума каждого спектральног сечения. Затем к найденному максимуму подгоняется единичный формантный резонанс, который располагается на частоте, соот ветствующей моменту первого порядка для спектральной полосы и лежащей, скажем, на уровне от 0 до 6 дб ниже значения максимума, по обе его стороны. Далее путем вычитания функций, представляющих в логарифмическом масштабе анализируемое-спектральное сечение и подобранную резонансную кривую, единичный формантный резонанс инверсно выфильтровывается из реального спектра речи, и в спектральном сечении выявляется другой максимум. Описанный процесс повторяется до тех пор, пока не определят местонахождения требуемого числа формант. Проблема формантной сегментации устраняется, поскольку отбор по пиковым значениям выполняется всегда в пределах всего спектра. Форманты, находящиеся в непосредственной близости, также можно выделить с высокой степенью точности и при непрерывном речевом сигнале. Результаты выделения формант показывают на спектральных сечениях так, как это сделано на рис. 5.5. Способность машины удерживать в памяти большое количество данных и выполнять с высокой скоростью сравнительно сложные операции позволяет и в этом случае осуществить достаточно точную подгонку спектра.