Анализ, синтез и восприятие речи - Джеймс Л. Фланаган
Скачать (прямая ссылка):
ч " 2AT
выше) при отклонениях длительности периодов -^- порядка
0,1 и более.
7.2.10. Дифференциальная различимость в артикуляционной области
Акустические координаты, определенные для речи и рече-подобных сигналов в предыдущих разделах, представляют интерес и с точки зрения артикуляции. Однако между акустическими и 'артикуляционными соотношениями не существует взаимнооднозначного соответствия. Например, изменение размеров или положения сужения речевого тракта приводит к изменению не одной, а, как правило, всех частот формант (см. рис. 3.39). По этой причине трудно интерпретировать, скажем, пороговые значения для частоты и амплитуды формант с привлечением понятия о едва различимых изменениях положения артикуляционных органов. Тем не менее можно установить некоторые связи, существующие между обеими областями.
Едва ощутимые изменения формантной частоты были найдены в пределах 3—5%. Для формант прямой акустической
й _ f(2n— 1)с _
трубы справедливо соотношение Fn -— , п = 1, 2 . . .
41
Чувствительность частоты максимума форманты к изменениям
л . OFn (2га—1)с
длины трубы определяется величиной —-— =--1- или
dl 4/2
Fn '
—— =--, так что заданное относительное изменение дли-
AFn Al
ны тракта / вызывает такое же относительное изменение формантных частот. Следовательно, можно ожидать, что дифференциальный порог для длины тракта в процентном отношении приблизительно совпадает с дифференциальным порогом для частот формант. Обращаясь к рис. 3.39, можно заметить и другие, более сложные отношения между изменениями формант и артикуляционными параметрами.
Другим простым примером является чувствительность максимального затухания прямой трубы к изменениям средней площади голосовой щели [см. ур-ние (3.74)]. Предположим, что
288
восприятие речи и речеподобных звуков
эквивалентный импеданс голосовой щели чисто вещественен и определяется только кинетическими факторами, т. е. Rg= = Y2pPs0/A0 [см. ур-ние (3.51)]. Затухание полюсов (т. е. вещественных частей) определяется как ап~ [ас+Z0ClIRg) или ап~—[ac + cZoAo/l К2рРі0І[см. ур-ние (3.74)]. Чувствительность затухания к изменениям средней площади голосовой щели определяется величиной OanIdA0-cZ0/l }^2pPs0 . т. е. изменения максимального затухания приблизительно пропорциональны изменениям сечения голосовой щели.
7.3. Абсолютное "различение речи и речеподобных
звуков
7.3.1. Абсолютное опознавание звуков
При разработке акустической теории распознавания звуков речи наибольшие усилия были направлены на эксперименты по абсолютному опознаванию. В качестве испытательных образцов, как правило, выбирались синтезированные фонемы или отрезки синтезированной речи длительностью в один слог. Этот подход, по-видимому, ставит испытательные образцы вне контекста, так что на восприятие влияют только физические свойства выбранного сигнала. В то же время при этом сохраняется лингвистическая структура, что позволяет соответствующим образом характеризовать оценки восприятия.
С изолированными фонемами проведено сравнительно небольшое количество экспериментов. В одном из опытов исследовались артикуляционные конфигурации, соответствующие гласным. Ис-пытывалось простое, трех-параметрическое описание гласных, синтезированных с помощью модели речевого тракта с распределенными параметрами (Стивене и Хаус—Stevens and House, 1955; Хаус и Стивене, 1956). Трсхпараметрическая мо-
Го
о 2 9 6 Го л особая щель
8 W 12 х,см
Рис. 7.6. Трехпарамегрическое описание артикуляции главных, г0—радиус максимального сужения; X0 — расстояние-голосовой щели до
от
Ik W Рот
максимального
А I
отношение площади
сужения;
сечения рта к окружности губ (Стивене и Хаус, 1955)
АБСОЛЮТНОЕ РАЗЛИЧЕНИЕ РЕЧИ И РЁЧЕПОДОБНЫХ ЗВУКОВ 289
дель артикуляционного тракта при формировании гласных показана на рис. 7.6. Радиус границы тракта, обозначенной пунктирной линией, описывался функцией г(х) = = 0,025(1,2—Го) (х—х0)2 + г0, где длина выражена в сантиметрах.
Эта конфигурация тракта моделировалась в синтезаторе гласных с помощью электрической линии задержки. Изолированные гласные длительностью 500 мсек предлагались слушателям для абсолютного узнавания по 9 категориям, принятым для гласных английского языка. Основной тон монотонно менялся в пределах от 120 до 140 гц. Оценки слушателей по разборчивости для одной величины сужения показаны на рис. 7.7. Два контура оценок соответствуют 50 и 70%' правильно опознанных гласных. Данные Петерсона и Барни (Peterson and Barney) для натуральных гласных, произносимых мужским голосом (см. рис. 5.10), пересчитанные в ту же систему артикуляционных координат, показаны на рис. 7.8. Из сравнения
0,1
U 5 6 7 6 9 10 И 12 13 Расстояние от голосовой щеми да
Расстояние от еолособЬй щели до сужения, см
сужения, см
Рис. 7.7. Оценки опознавания на слух синтетичесиих гласных при трехпа-раметрической модели для одного фиксированного радиуса сужения. Показаны две границы областей, соответствующих 50 и 75% правильно опознанных звуков (Хаус и Стивене,