Анализ, синтез и восприятие речи - Джеймс Л. Фланаган
Скачать (прямая ссылка):
на из наиболее активных областей исследования концентрируется на возможности установления зависимости между электромиографическими записями мускульных потенциалов и наблюдаемыми на рентгенограммах артикуляторными движениями. Для измерения параметров голосового тракта были также предложены несколько забавные «экзотические» схемы, которые впрочем, обладают определенными достоинствами. Если бы, например, на внутреннюю стенку какого-либо участка голосового тракта можно было нанести проводящее покрытие из аква-дага и к полученной таким образом петле прикрепить электрический провод, то, поместив испытуемого в магнитное поле, направленное нормально к исследуемому сечению, и измерив величину пронизывающего петлю потока, можно было бы опре-
АВТОМАТИЧЕСКОЕ РАСПОЗНАВАНИЕ РЕЧИ
211
делить площадь поперечного сечения в данной точке тракта. Другая возможность может быть реализована закреплением в важнейших точках тракта миниатюрных измерителей деформации либо помещением на определенных его участках надуваемых кольцевых манжет или катетеров.
Рассмотренные ранее электрические аналоги голосового тракта и их анализ оказались чрезвычайно полезными при обработке артикуляционных данных и динамических характеристик тракта, которые были получены с помощью скудных рентгеноскопических данных и спектрального анализа звукового сигнала. Методы построения аналогов позволяют также определить совокупность физических ограничений, налагаемых на конфигурацию голосового тракта, и пути эффективного артику-ляторного описания речевых сигналов. Анализ на основе этих методов 'предположительно может быть сделан эквивалентным такому анализу, при котором говорящий диктор стоит лицом к рентгеновской трубке с абстрагированной (подобно тому, как это делают на карикатурах) конфигурацией речевого тракта для количественного определения характеристик носледнего с целью передачи по каналу связи. Полученные результаты можно затем использовать на приемном конце для управления арти-куляторным синтезатором.
5.5. Автоматическое распознавание речи
Любой человек может слушать осмысленную речь на знакомом ему языке и фиксировать некоторый письменный эквивалент того, что он услышал. При этом он выполняет преобразование входного акустического сигнала, распознавая в нем различные лингвистические элементы (фонемы) и перекодируя их в последовательность буквенных символов. Распознавание лингвистических элементов основано на знании контекстуальных, грамматических и семантических закономерностей данного языка1). Достаточно изучить сравнительно небольшое количество звуковых спектрограмм, чтобы убедиться, что в общем случае в акустическом сигнале не существует очевидных фонетических границ.
Под автоматическим распознаванием речи понимается выполняемый машиной фонемный анализ. Имеется возможность
') Существует также другая точка зрения, заключающаяся в том, что анализ контекстуальных, грамматических и семантических элементов и закономерностей при восприятии речи основан на распознавании фонетических и лингвистических элементов речи. Ставя далее задачу распознавания фонетических элементов речи, автор, по существу, склоняется именно к такому подходу при анализе речи (см. * А. А. Пирогов, прим. ред.).
212
УСТРОЙСТВА ДЛЯ АНАЛИЗА РЕЧИ
моделирования, причем в довольно грубой форме, только пред- I варителвных стадий обработки акустического сигнала в'слуховой | системе человека (ом. разделы 4.1.4, 4.1.5 и 4.2.4). До настояще- | го времени даже в наиболее совершенные механические рас- \ познающие устройства невозможно заложить такие лингвистиче- \ ские закономерности, которые позволили бы приблизить их к j человеку по эффективности. Последняя область представляет .] собой объект интенсивных исследований в теории грамматиче- j ского, механического и семантического переводов. \
Существует большая разница между распознаванием фонем для данного языка и непосредственным кодированием акустиче- і ского сигнала, скажем, путем анализа спектральных характери- 1 стик и характеристик возбуждения речевого тракта. Первое ] предполагает наличие полного объема лингвистических сведе- ] ний, последнее—только то, что данный сигнал произведен рече- j образующим механизмом человека. Непосредственное кодиро- j вание находится в пределах возможности существующих методов анализа речи, а распознавание фонем для данного языка все еще вне этих пределов. Если распознавание фонем все же окажется возможным, то тем самым будет сделан, конечно, огромный вклад в повышение эффективности передачи. (Напомним, что согласно разд. 1.2 скорость передачи речевой информации, связанная с произношением независимых равновероятных фонем, примерно равна 50 дв. ед./сек. Передаваемую с такой скоростью информацию можно со сколь угодно малыми ошибками пропустить через канал с шириной полосы частот в 5 щ и отношением сигнал/шум 30 дб).
В большинстве проведенных исследований испытанию подвергались машины, которые способны распознавать ограниченный набор звуков речи, произносимых ограниченным числом дикторов (чаще только одним). Как правило, в этих устройствах решение принимается на основе результатов анализа мгновенных спектров акустического сигнала. Используемые в них особенности (акустического характера) соответствуют больше механизму речеобразования, чем лингвистической структуре. Не пытаясь исчерпать предмет в целом, обрисуем положение дел на нескольких примерах.