Анализ, синтез и восприятие речи - Джеймс Л. Фланаган
Скачать (прямая ссылка):
і Iii*
2200
0
0,1 0,2 0,3 0,4
2000
1830
1320
время, сек
/ООО
3JD_
540
960
— SW — 6R
5?? 270
0
с
е
є
а э
0 и
15 мсек
Рис. 7.9. Испытательные образцы для определения влияния спектра
шума вспышки на восприятие глухих взрывных консонант: а) положение спектров вспышек шума; б) формантные частоты двухформантных гласных; в) один из синтетических слогов типа «согласная—гласная», сформированных сочетанием вспышки шума с двухформантной гласной (Купер, Делатр, Либерман, Борет и
Герстмаи)
Рис. 7.10. Оценка опознавания на слух синтетических слогов типа «согласная—гласная», показанных на рис. 7.9 (Купер
и др.)
АБСОЛЮТНОЕ РАЗЛИЧЕНИЕ РЕЧИ И РЕЧЕПОДОБНЫХ ЗВУКОВ 293
являются границами зон более высоких оценок. Для этого частного набора слогов соответствующий выбор лишь одной частоты (именно частоты шума вспышки) оказался достаточным для различения- трех согласных. Высокочастотная вспышка воспринимается как /t/ в сочетании с любой гласной. Идентификация /р/ и /к/ зависит не только от спектра вспышки, но и от последующей гласной. Вспышки на уровне второй форманты или чуть выше воспринимаются как /k/. В других случаях слышится /р/. Отсюда последовал вывод, что особенности восприятия этих образцов и, пожалуй, их эквивалентов в разговорной речи характеризуют сочетание согласная — гласная (т. е. слог) как минимальную акустическую единицу. При отсутствии информации о последующей гласной восприятие согласных может быть неоднозначным.
Следующим важным фактором для восприятия взрывных согласных является формантный переход к гласной после раскрытия емычки. Возникает вопрос, как этот и ранее упомянутый фактор (положение спектра вспышки) влияют изолированно и в сочетании друг с другом. Были проведены опыты по формированию тех же слогов с взрывными согласными и гласными, однако при этом исключалась вспышка шума, а имитация согласной осуществлялась только переходом второй форманты.
Ансамбль испытанных переходов показан на рис. 7.11. Номера переходов N в диапазоне от —4 до +6 обозначают начальную частоту второй форманты. Для определения этой частоты в герцах следует пользоваться формулой /= =[F2+N (120)], гц, где F2 — стационарная частота второй форманты двухформантных
гласных, изображенных на глухих взрывных консонант (Купер рис. 7.9'). Частота первой и др.)
форманты поддерживалась постоянной на уровне, показанном на том же рисунке. Частота ОТ была также фиксирована и равнялась 120 гц. Длительность
!) Исключением является случай отрицательного перехода .F2 для глас-
'120Г
0,1 0,-2 0,3 Время,сек
Рис. 7.11. Траектории второй форманты при испытаниях влияния формантных переходов на восприятие
«ых /о/ и /и/. Здесь I= Герстман).
(ом. Либерман, Делатр, Купер «
294
ВОСПРИЯТИЕ РЕЧИ И РЁЧЕПОДОБНЫХ ЗВУКОВ
переходов для диапазона N в пределах ± 1 составляла 40 мсек и для N=6 около 80 мсек. Длительность промежуточных диапазонов устанавливалась пропорционально номеру. Форма траекторий переходов не регламентировалась, однако принимались меры для приближения их к соответствующим переходам в спектрограммах естественной речи. По опыту авторов вариации длительности и формы траектории переходов не приводят к замене звучания одной взрывной согласной другой.
Усредненные оценки опознавания звуков /р, t, к/ по переходам для семи различных гласных по показаниям 33 слушателей даны на рис. 7.12. Высота затемненных прямоугольников определяется 25-процентными границами интегральной величины оценок. Как видно из этих результатов, переход второй форманты является существенным фактором при различении звуков /р, t, к/.
і в є а з о и
Рис. 7.12. Средние оценки показаний 33 слушателей для слогов типа «взрывная согласная—гласная», синтезированных в соответствии с диаграммами, показанными на рис. 7.11. Заштрихованные столбике лежат в границах, за которыми остается 25% оценок (Купер н др.)
Продолжая исследования в этом направлении, авторы нашли, что вторая форманта существенно влияет на восприятие также родственных сонорных согласных /b, d, g/. Сонорные и несонорные родственные звуки различаются по переходу первой форманты и наличию или отсутствию голосового возбуждения. Если подобным же образом формировать слоги типа «гласная — назальная согласная», но переход первой форманты осуществить в конце гласной и дополнить модель фиксированным назальным резонатором, то второй формантный переход, позво-
АБСОЛЮТНОЕ РАЗЛИЧЕНИЕ РЕЧИ И РЕЧЕПОДОБНЫХ ЗВУКОВ 295
ляющий различать /р, t, к/ и /b, d, g/, служит также для различения /m, n, tj/ (Либерман, Делатр, Купер и Герстман).
Сделаем некоторые дополнительные замечания относительно восприятия слогов типа «взрывная глухая согласная — гласная». Обе серии результатов показывают индивидуальный вклад как вспышек шума в стадии раскрытия смычки, так и формант-лого перехода в последующей стадии формирования гласной. Однако остается невыясненным, как эти факторы сочетаются и взаимно связаны друг с другом. Можно ожидать, что при совместном действии обоих факторов, надежность опознавания повысится и что они дополняют друг друга. При слабом действии одного фактора сильнее может сказываться другой. В некоторых слогах могут оказаться недостаточными оба эти фактора, и весьма существенным станет иной фактор, например третий формантный переход.