Анализ, синтез и восприятие речи - Джеймс Л. Фланаган
Скачать (прямая ссылка):
ФОРМАНТНЫИ АНАЛИЗ РЕЧИ
195
лагается в ряд Фурье, как если бы он был одним из периодов строго периодической функции. Под огибающую вычисленного таким образом спектра подгоняется методом последовательных приближений и в соответствии с критерием взвешенной среднеквадратичной ошибки синтезированный спектр. В свою очередь, синтезированный спектр получается с помощью модели распределения полюсов и нулей, основанной на акустических соотношениях для речевого тракта и источника колебаний (см. гл. III).
Процесс подгонки начинается с выбора некоторого распределения полюсов и нулей, приближенно соответствующего вычисленно-ному реальному спектру. Затем с целью минимизации взвешенной среднеквадратичной ошибки (в логарифмическом масштабе амплитуд) с помощью вычислительной машины последовательно даются приращения величинам частоты и затухания для каждого отдельного полюса и нуля. После Ю—12
полных циклов может быть получено достаточно близкое приближение к спектру речи. Типичная величина среднеквадратичной ошибки в логарифмическом масштабе амплитуд лежит в пределах примерно от 1,5 до 2,5 дб. Обычная степень приближения, полученная в результате подгонки, иллюстрируется рис. 5.22.. Измеренные формантные частоты и полосы принимаются затем в качестве частот и полос для спектральной мо-
10 15 20 25 Номер гармоники
Рнс. 5.22. Образцы спектров для одного периода основного тона вокализаванного звука, полученные методом подгонки на ЭВМ:
а) гласный звук /і/ при частоте основного тона 132 гц; б) гласный звук /Л/ при частоте основного тоиа 114 гц; сплошная кривая — измеренное значение, пунктирная кривая — вычисленное значение (Мэтьюс, Миллер и Дэвид, 11961, Ь)
7*
196
устройства для анализа речи
дели, обеспечивающей наилучшее совпадение с огибающей реального спектра.
Приведем также общие характеристики системы несинхронного с основным тоном анализа, (построенной на использовании цифровых вычислительных машин при вводе извне данных о спектре речи (Хьюз—Hughes; Форджи и Хьюз—Forgie and Hughes). Текущее значение мгновенного спектра речи получается посредством гребенки из 35 смежных полосовых фильтров с детекторами и интеграторами. Выходные сигналы считываются с достаточно большой скоростью (180 сек~1), в результате чего образуется функция времени, которая отображает последовательность спектральных сечений (по сути дела так же, как и на рис. 5.5). Из этой функции через каждые 154 мксек выбираются дискретные значения, которые в аналого-цифровом преобразователе квантуются с помощью 11-разрядного кода. Для ,дальнейшей обработки определенное количество полученных таким образом данных удерживается в машинной памяти.
Один вид анализа, для которого была составлена программа машинной обработки, включал в себя: 1) определение местоположения фрикативных звуков в слове и классификацию их; 2) определение местоположения первой и второй формант в вокализованных сегментах и 3) вычисление общего уровня звукового сигнала. Процедура определения формант в основном построена по схеме отбора пиковых значений, примерно совпадающей с приведенной на рис. 5.20. Однако в целях наилучшего использования всех свойств речевого тракта в программу были включены многочисленные дополнительные условия. В принципе, процесс обработки одного периода развертки спектра состоял в следующем. В частотном диапазоне, соответствующем первой форманте, находился фильтр с максимальным значением выходного сигнала. Для этого канала запоминались величины частоты и амплитуды. На основании местоположения F1 устанавливался частотный диапазон для F2. В установленном для F2 диапазоне определялся фильтр с максимальным значением выходного сигнала и запоминались соответствующие ему величины частоты и амплитуды. Наконец, испытывался следующий период развертки спектра и находились величины F1 и F2 при соблюдении условия непрерывности с ранее найденными величинами. Большие резкие изменения величин F1 и F2 за малый промежуток (времени исключались. На рис. 5.23 приведены типичные результаты описанной процедуры, оцененные как «хорошо» и «удовлетворительно».
Способ подгонки спектральных образцов для нахождения формант был использован также в приложении к обработке спектра, вводимого в вычислительную машину в реальном мае-
ФОРМАНТНЫИ АНАЛИЗ РЕЧИ
197
Рис. 5.23. Следы частот первой и второй формант, полученные в результате анализа спектра на ЭВМ в реальном масштабе времени. Спектрограммы соответствуют словам «Hawaii» (а) и «Yowie» (б), произнесенным диктором-мужчиной (Хьюз)
штабе времени (Белл и др. — Bell at al). Этот способ, 'названный авторами «анализ через синтез», осуществляется при помощи устройства, блок-схема которого показана на рис. 5.24. Как и в предыдущем случае, мгновенный спектр получается посредст-
вычиоштельная машина
Гребенка срильтроб
Запоминающее ycmpoacmoo
Данное анализа соседнего участка
JL
Компаратор
Управляющее устройство
Генератор спектра
Распределение полюсов а нулей — спектры источника
Рис. 5.24. Процедура определения форманты на ЭВМ путем подгонки кратковременных спектров (Белл и др.)