Анализ, синтез и восприятие речи - Джеймс Л. Фланаган
Скачать (прямая ссылка):
Рис. 7.8. Данные Петерсона .и Барни о частотах формант 33 мужских голосов, пересчитанные для трехпарамвтриче-ской модели артикуляции гласных (Хаус и Стивене, I1955J
1955)
10—71
290
ВОСПРИЯТИЕ РЕЧИ И РЕЧЕПОДОБНЫХ ЗВУКОВ
рис. 7.7 и 7.8 видно, что, за исключением небольших различий, трехпараметрическое представление удивительно хорошо описывает гласные.
Подобные эксперименты по синтезу и восприятию были поставлены и для гласных японского языка (Наката и Сузуки — Nakata and Suzuki). В этих опытах звуки формировались с помощью синтезирующего четырехполюсника, а цель состояла в том, чтобы найти формантную структуру для соответствующего синтеза гласных.
Упомянутый выше аналог тракта с распределенными параметрами, дополненный моделью носового тракта, применялся также при изучении восприятия «азальных согласных (Хаус — House). Синтезировались и предлагались слушателям для абсолютного суждения образцы назальных согласных длительностью 500 мсек. Разрешенными для опознавания категориями были три назальные согласные (m, п и г|). Модель артикуляционного тракта при синтезе была подобна описанной выше модели для гласных, но дополненная параметрами задненебной связки. Типичная матрица опознаваемости для артикуляционных категорий, представляющих зафиксированные перед испытаниями образцы синтетических назальных согласных, показана в табл. 7.1. Хотя оценки опознавания этих согласных не могут считаться достаточно высокими, тем не менее они хорошо совпадают с данными подобных измерений для естественных назальных согласных (Малекот — Malecot). Синтетические назальные согласные опознаются даже лучше, чем естественные. Учитывая высокую функциональную нагрузку в связной речи этих назальных звуков, и в особенности /п/ (см. табл. 1.1),
Таблица 7.1
ОЦЕНКА УЗНАВАЕМОСТИ НА СЛУХ СИНТЕТИЧЕСКИХ И ЕСТЕСТВЕННЫХ НАЗАЛЬНЫХ СОГЛАСНЫХ
Синтетические
Естественные
оценки, %
оценки, %
образцы
образцы
m
п
1
m
п
1
m
81
11
8
m
96
4
0
п
33
61
6
П
42
56
2
1I
20
18
62
1I
60
28
12
Примечание Средняя узнаваемость синтетических звуков =68%, естественных — 55%.
АБСОЛЮТНОЕ РАЗЛИЧЕНИЕ РЕЧИ И РЁЧЕПОДОБНЫХ ЗВУКОВ 291
из факта низкой опознаваемости следует сделать вывод, что для восприятия назальных согласных весьма существенную роль играют переходы между соседними звуками.
7.3.2. Абсолютное опознавание слогов
Исследованию восприятия изолированных слогов посвящено значительное количество работ. Основные усилия были направлены на выявление акустических особенностей, существенных для опознавания фонем. Главная задача состояла в том, чтобы определить влияние на восприятие каждого акустического фактора в отдельности, а также выяснить, как эти факторы влияют совместно. В большинстве работ отмечается большое влияние акустического окружения на восприятие, т. е. отмечается, что восприятие той или иной фонемы зависит от соседних фонем.
Среди ведущих исполнителей в этой работе была группа Лабораторий Хаскинс. Многочисленные эксперименты по формированию синтетических слогов производились с помощью устройства для воспроизведения звуков речи по спектрограммам. Принцип действия этого аппарата описан в гл. VI (см. рис. 6.6). Устройство синтезирует звуки по сигналам, получаемым при считывании спектрограмм в координатах «время—частота — интенсивность».
Поясним идею экспериментов на примере испытания идентификации согласных в слогах типа «согласная — гласная». Выбирались либо сонорные согласные, либо глухие взрывные. Для глухих согласных (например, /р, t, к/) одним из параметров, позволяющих слушателям дифференцировать звуки, является положение по частотной шкале короткой вспышки шума, определяющей артикуляторную смычку. Для изоляции этой частотной особенности и определения ее роли при восприятии синтезировались показанные на рис. 7.9в упрощенные слоги типа «смычка — гласная» (Купер, Делатр, Либерман, Борет и Герстман— Cooper, Delattre, Liberman, Borst and Gerstman). Вспышки шума (маленький вертикальный эллипс на рис. 7.9в) характеризовались постоянными шириной спектра и длительностью, а гласные были двухформантными, стационарными на протяжении слога. Сочетания вспышек шума и формант гласных, показанных на рис. 7.9а и б соответственно, составляли ансамбль испытательных образцов.
Изолированные слоги предлагались слушателям, определяющим, какая из первоначальных согласных /р, t или к/ воспринимается. Оценки опознаваемости, как функции положения вспышек шума и вида гласных, показаны на рис. 7.10. Заштрихованные контуры соответствуют границам приблизительно одинаковых в процентном отношении оценок, а тонкие контуры 10*
92
ВОСПРИЯТИЕ РЕЧИ И РЕЧЕПОДОБНЫХ ЗВУКОВ
4320
3960
3600
3240
OQQn
Za au
I
2520
1
2160
WOO
то
WSO
720
360
0
а)
б)
8)
то
3600 2400
;
зооо
2720
1200