Анализ, синтез и восприятие речи - Джеймс Л. Фланаган
Скачать (прямая ссылка):
С другой стороны, широкополосный фильтр в варианте 3 характеризуется весовой функцией, сравнимой по длительности только с одним периодом основного тона мужского голоса. В этом случае точность анализа во времени позволяет учитывать амплитудные изменения, длительность которых сопостави-
Вариант
1
2
3
Асо
50
100
250
D [мсек]
40
20
8
') Иногда в качестве эффективной длительности весовой функции выбирают половину указанной величины.
СПЕКТРАЛЬНЫЙ АНАЛИЗ РЕЧИ
169
ма с одним периодом основного тона. Фильтры, аналогичные тем, которые приведены в вариантах 1 и 3, используются в широко известном звуковом спектрографе, который будет рассмотрен в следующем параграфе.
Промежуточный вариант 2 является своего рода компромиссом между требованиями, предъявленными к анализу речи с временной и частотной точек зрения. Фильтр в этом случае имеет такую полосу пропускания, которая считается наиболее подходящей при определении мгновенного спектра в устройствах типа вокодера и формантного выделителя. Показанный на рис. 5.5 мгновенный спектр получен с помощью такого рода фильтров.
Здесь уместно дать оценку эффективной длительности весовой функции для механического мгновенного анализа, производимого базнлярной мембраной в ухе человека. Из гл. IV1) следует, что достаточно хорошее приближение к закону смещения базнлярной мембраны при воздействии на нее единичного импульса в точке максимальной чувствительности к круговой частоте ? дается выражением
P (t) = (P tf <Гт sin ? t = hbm (t) sin ? t. (5.9)
Весовая функция для базнлярной мембраны, построенная по этому выражению2), изображена на рис. 5.6. Протяженность весовой функции обратно пропорциональна круговой частоте ?. Функция имеет максимум при tMaKC = 4/?. Если эффективную длительность D считать в первом приближении равной 2 ^макс, то для различных точек мембраны получим (табл. 5.2):
Таблица, 5.2?
100
1000
5000
D—2tмакс
12,0
1,2
0,2
Отсюда следует, что для речевых сигналов механический анализатор уха обеспечивает лучшую разрешающую способность во времени, чем
* 6 8 B=?t
Рис. 5.6. Эффективное временное окно для кратковременного частотного анализа, производимого в ухе человека базнлярной мембраной. Весовая функция установлена из рассмотренной в гл. IV модели уха
12
') Ом. также «третью» модель, описанную Фланаганом (11962, а). 2) Выражение (5.9) не учитывает влияния среднего уха. Подробнее см. гл. IV.
170
УСТРОЙСТВА ДЛЯ АНАЛИЗА РЕЧИ
по частоте. Единственной спектральной составляющей, различаемой этим механическим анализатором, является, вообще говоря, лишь первая гармоника основного тона. Этот вывод подтвердили результаты изучения моделей, описанных в гл. IV.
5.1.4. Звуковой спектрограф
Спектральный анализ речи, образно говоря, достиг совершенства с разработкой звукового спектрографа (Кёниг, Данн и Леси — Koenig, Dunn and Lacy). С помощью этого устройства можно непрерывно наблюдать за мгновенным спектром сигнала достаточно большой длительности. Используемый здесь способ анализа в точности соответствует функциональной схеме, показанной «а рис. 5.4. Весовая функция выбирается из условия выявления важнейших акустических характеристик и особенностей восприятия, таких, как формантная структура, во-кализованность, шумность, ударение и высота основного тона. Было разработано много других приборов для спектрального анализа, однако относительное удобство и простота обращения звукового спектрографа указанного типа способствовали широкому его внедрению в качестве инструмента для анализа речи и фонетических исследований. Поэтому ъ этом разделе даны его краткое описание и принципы действия.
На рис. 5.7 приведена функциональная схема звукового спектрографа, известного под названием «сонограф модели D».
Анализ,
14-
13
Спектрограмма.
Рис. 5.7. Функциональная схема звукового спектрографа:
1 — микрофон, 2 — головка записи и воспроизведения, 3 — магнитный диск, 4 — барабан, 5 — электрочувствительная бумага, 6 — кулачок, 7 — включатель блока сечення, 8 — наконечник, 9 — механическая связь, 10 — усилитель тока записи, 11 — генератор переменной частоты, 12 — блок сечення, 13 — анализирующий полосовой фильтр, 14 — модулятор
СПЕКТРАЛЬНЫЙ АНАЛИЗ РЕЧИ
171
Когда микрофонный переключатель IJx находится в положении «Запись», образец речи (обычно продолжительностью 2,5 сек) записывается на магнитный диск. Затем микрофонный переключатель переводится в положение «Анализ», и записанный образец подвергается спектральному анализу путем его многократного пропускания через полосовой фильтр. Этот фильтр в процессе ряда последовательных воспроизведений образца речи медленно перемещается по частотной полосе сигнала. Таким образом, в результате получается устройство, эквивалентное по действию анализатору с многими фильтрами. По техническим причинам более удобно использовать фильтр с фиксированной полосой прозрачности при наличии «скользящего» спектра сигнала, пропускаемого через этот фильтр. Требуемое скольжение осуществляется перемещением по оси частот боковой полосы сигнала, полученного в результате модуляции речевым образцом высокочастотной несущей. В свою очередь, боковая полоса перемещается благодаря изменению частоты несущей. Управляемый генератор несущей частоты механически связан с магнитным диском так, что последовательный анализ спектра записанного сигнала производится в процессе повторных оборотов этого диска.