booksshare.net -> Добавить материал -> Лингвистика -> Деркач М.Ф. -> "Динамические спектры речевых сигналов" -> 41

Динамические спектры речевых сигналов - Деркач М.Ф.

Деркач М.Ф., Гумецкий Р.Я., Гура Б.М., Чабан М.Е. Динамические спектры речевых сигналов — Лв.: Высшая школа, 1983. — 168 c.
Скачать (прямая ссылка): dinamichspektrrechsignal1983.djvu

Предыдущая << 1 .. 35 36 37 38 39 40 < 41 > 42 43 44 45 46 47 .. 53 >> Следующая

5.2. РОЛЬ НАДЕЖНО ИДЕНТИФИЦИРУЕМЫХ ПРИЗНАКОВ ФОНЕМ ДЛЯ «ЧТЕНИЯ» ДИНАМИЧЕСКИХ СПЕКТРОГРАММ СЛИТНОЙ РЕЧИ
Вопрос о том, можно ли в принципе с помощью зрения осуществить то, что свойственно делать слуху, имеет серьезное теоретическое и практическое значение. Если принять, что динамическая спектрография отражает наиболее существенные явления частотного анализа акустического сигнала, которые происходят на основной мембране внутреннего уха, то изучение динамических спектрограмм слитной речи следует рассматривать как метод получения объективной картины слухового процесса, визуализированной в доступной для изучения форме. Мы придерживаемся именно этой точки зрения. Сказанное не означает, однако, что спектральная картина «видимой речи» является полным отображением слуховой рецепции речи во всех ее деталях. Слуховой анализатор человека является несравненно более чувствительным прибором, чем спектральный анализатор аппаратов «видимой речи».
Опыт изучения динамических спектрограмм естественных высказываний показывает, что акустические признаки, используемые в фонетике для классификации звуков речи, проявляются в речевом потоке с неодинаковой отчетливостью. Поэтому логично требовать, чтобы разным признакам приписывалась разная степень доверия при визуальном «чтении» динамических спектрограмм речевого высказывания. К числу идентифицирующих признаков, имеющих ключевое значение, следует прежде всего отнести широкие полосы шума, локализованные в разных областях частот, которые регистрируются на динамических спектрограммах при реализации твердых глухих щелевых согласных [с], [ш] и мягких [с'], [х'], [ф']. Узкая по частоте полоса шума, обладающая достаточной длительностью, является хорошим признаком для идентификации глухого щелевого [х]. К надежным идентификаторам глухих взрывных согласных относятся паузы, а следующие за ними взрывные сегменты в зависимости от их длины и частотной локализации позволяют судить о наличии глухих взрывных согласных или аффрикатов. Наличие полосы основного тона позволяет принять решение о классе вокализованных звуков, а четко выраженная формантная структура сегмента — о его принадлежности к классу гласных, а также о вероятном расположении звука
9 964-3
129
в плоскости формантного треугольника. Наконец, полезную информацию несет формантная динамика, свидетельствующая о коартикуляционных событиях в высказывании.
Очевидно, что в процессе «чтения» динамических спектрограмм желательно опираться именно на эти опорные акустические явления, которые хорошо коррелируют с некоторыми звуками речи. Такие опорные точки логично искать в ударных слогах, но не только в них; их следует искать в любых контрастных звукосочетаниях, в контрастах сонорных и шумных, щелевых и взрывных звуков и т. п. В настоящее время уделяется большое внимание алгоритмам чтения динамических спектрограмм и способам выявления опорных точек для фонемного анализа слов в процедурах автоматического распознавания речи [7, 25, 32].
В последующих примерах динамических спектрограмм слитно произнесенных предложений мы будем комментировать в первую очередь те узловые звуки или сегменты, которые помогают по-фонемно идентифицировать целые предложения.
На рис. 5.2.1 первой приведена динамическая спектрограмма предложения «Хорошо в лесу летом». Пытаясь найти на спектрограмме слово «хорошо», мы сразу обращаем внимание на щелевой согласный [ш], обладающий характерным интенсивным шумом и находящийся в ударном слоге. После локализации [ш] легко найти остальные звуки в слове «хорошо» — безударные а-образные гласные, начальный щелевой [х], а также идентифицировать прерывистость а-образной формантной структуры как проявление дрожащего сонанта [р].
Участок фразы «в лесу» легче всего фонемно декодировать, установив сначала место локализации щелевого [с]. Последовательность звуков [вл'и] теперь хорошо заметна: небольшой сегмент с ослабленной фонацией после ударного [о] — это [в]; в нем, в частности, виден эффект губной коартикуляции по «твердому» типу, в силу чего вторая форманта направляется вниз. А на участке [л'] она начинает свое движение вверх к палатализованному ы-образному положению, характерному для эффекта мягкости, в котором она продолжает находиться и на участке безударного и—з-образного гласного. Фонация сопровождает непрерывный ряд звуков [ул'э], которые легко локализовать на спектрограмме, а затем и фонемно дешифровать. После глухой смычки, являющейся необходимым и надежным идентификатором глухого взрывного [т], удается найти сегменты, отвечающие звукам безударного слога [там], невзирая на редукцию конечного [а] до двух периодов основного тона и на совсем не видную на спектрограмме назализацию согласного [м].
Проведем анализ динамической спектрограммы фразы «Слоны ели сено», приведенной справа в верхнем ряду рис. 5.2.1. Фраза произнесена слитно в том смысле, что акустических пауз в ней нет ни между словами, ни между отдельными звуками. Слово [сланы] легко идентифицировать по хорошо выраженному глухому щелевому [с], а также по характерной формантной структуре

Предыдущая << 1 .. 35 36 37 38 39 40 < 41 > 42 43 44 45 46 47 .. 53 >> Следующая