booksshare.net -> Добавить материал -> Лингвистика -> Джеймс Л. Фланаган -> "Анализ, синтез и восприятие речи" -> 70

Анализ, синтез и восприятие речи - Джеймс Л. Фланаган

Джеймс Л. Фланаган Анализ, синтез и восприятие речи. Под редакцией Пирогова А.А. — М.: Связь, 1968. — 395 c.
Скачать (прямая ссылка): analizsintivocrech1968.djvu

Предыдущая << 1 .. 64 65 66 67 68 69 < 70 > 71 72 73 74 75 76 .. 149 >> Следующая

ФОРМАНТНЫИ АНАЛИЗ РЕЧИ

195

лагается в ряд Фурье, как если бы он был одним из периодов строго периодической функции. Под огибающую вычисленного таким образом спектра подгоняется методом последовательных приближений и в соответствии с критерием взвешенной среднеквадратичной ошибки синтезированный спектр. В свою очередь, синтезированный спектр получается с помощью модели распределения полюсов и нулей, основанной на акустических соотношениях для речевого тракта и источника колебаний (см. гл. III).

Процесс подгонки начинается с выбора некоторого распределения полюсов и нулей, приближенно соответствующего вычисленно-ному реальному спектру. Затем с целью минимизации взвешенной среднеквадратичной ошибки (в логарифмическом масштабе амплитуд) с помощью вычислительной машины последовательно даются приращения величинам частоты и затухания для каждого отдельного полюса и нуля. После Ю—12

полных циклов может быть получено достаточно близкое приближение к спектру речи. Типичная величина среднеквадратичной ошибки в логарифмическом масштабе амплитуд лежит в пределах примерно от 1,5 до 2,5 дб. Обычная степень приближения, полученная в результате подгонки, иллюстрируется рис. 5.22.. Измеренные формантные частоты и полосы принимаются затем в качестве частот и полос для спектральной мо-

10 15 20 25 Номер гармоники

Рнс. 5.22. Образцы спектров для одного периода основного тона вокализаванного звука, полученные методом подгонки на ЭВМ:

а) гласный звук /і/ при частоте основного тона 132 гц; б) гласный звук /Л/ при частоте основного тоиа 114 гц; сплошная кривая — измеренное значение, пунктирная кривая — вычисленное значение (Мэтьюс, Миллер и Дэвид, 11961, Ь)

7*

196

устройства для анализа речи

дели, обеспечивающей наилучшее совпадение с огибающей реального спектра.

Приведем также общие характеристики системы несинхронного с основным тоном анализа, (построенной на использовании цифровых вычислительных машин при вводе извне данных о спектре речи (Хьюз—Hughes; Форджи и Хьюз—Forgie and Hughes). Текущее значение мгновенного спектра речи получается посредством гребенки из 35 смежных полосовых фильтров с детекторами и интеграторами. Выходные сигналы считываются с достаточно большой скоростью (180 сек~1), в результате чего образуется функция времени, которая отображает последовательность спектральных сечений (по сути дела так же, как и на рис. 5.5). Из этой функции через каждые 154 мксек выбираются дискретные значения, которые в аналого-цифровом преобразователе квантуются с помощью 11-разрядного кода. Для ,дальнейшей обработки определенное количество полученных таким образом данных удерживается в машинной памяти.

Один вид анализа, для которого была составлена программа машинной обработки, включал в себя: 1) определение местоположения фрикативных звуков в слове и классификацию их; 2) определение местоположения первой и второй формант в вокализованных сегментах и 3) вычисление общего уровня звукового сигнала. Процедура определения формант в основном построена по схеме отбора пиковых значений, примерно совпадающей с приведенной на рис. 5.20. Однако в целях наилучшего использования всех свойств речевого тракта в программу были включены многочисленные дополнительные условия. В принципе, процесс обработки одного периода развертки спектра состоял в следующем. В частотном диапазоне, соответствующем первой форманте, находился фильтр с максимальным значением выходного сигнала. Для этого канала запоминались величины частоты и амплитуды. На основании местоположения F1 устанавливался частотный диапазон для F2. В установленном для F2 диапазоне определялся фильтр с максимальным значением выходного сигнала и запоминались соответствующие ему величины частоты и амплитуды. Наконец, испытывался следующий период развертки спектра и находились величины F1 и F2 при соблюдении условия непрерывности с ранее найденными величинами. Большие резкие изменения величин F1 и F2 за малый промежуток (времени исключались. На рис. 5.23 приведены типичные результаты описанной процедуры, оцененные как «хорошо» и «удовлетворительно».

Способ подгонки спектральных образцов для нахождения формант был использован также в приложении к обработке спектра, вводимого в вычислительную машину в реальном мае-

ФОРМАНТНЫИ АНАЛИЗ РЕЧИ

197

Рис. 5.23. Следы частот первой и второй формант, полученные в результате анализа спектра на ЭВМ в реальном масштабе времени. Спектрограммы соответствуют словам «Hawaii» (а) и «Yowie» (б), произнесенным диктором-мужчиной (Хьюз)

штабе времени (Белл и др. — Bell at al). Этот способ, 'названный авторами «анализ через синтез», осуществляется при помощи устройства, блок-схема которого показана на рис. 5.24. Как и в предыдущем случае, мгновенный спектр получается посредст-

вычиоштельная машина

Гребенка срильтроб

Запоминающее ycmpoacmoo

Данное анализа соседнего участка

JL

Компаратор

Управляющее устройство

Генератор спектра

Распределение полюсов а нулей — спектры источника

Рис. 5.24. Процедура определения форманты на ЭВМ путем подгонки кратковременных спектров (Белл и др.)

Предыдущая << 1 .. 64 65 66 67 68 69 < 70 > 71 72 73 74 75 76 .. 149 >> Следующая