Анализ, синтез и восприятие речи - Джеймс Л. Фланаган
Скачать (прямая ссылка):
Одна из попыток распознавания ограниченного набора звуков привела к изготовлению прибора для распознавания произносимых однозначных чисел, названного «Одри» (Дэвис, Бид-далф и Балашек). Принцип работы прибора заключается в достаточно грубом измерении частот первой и второй формант, которые фиксируются в виде функции времени, и в последующем сравнении измеренных образцов (в плоскости F1—F2) с набором имеющихся эталонных образцов. Эталонный образец, даю-
АВТОМАТИЧЕСКОЕ РАСПОЗНАВАНИЕ РЕЧИ
213
(800гц)
через нуль
щий наилучшую корреляцию с измеренным, принимается за произнесенную цифру.
Устройство прибора показано на рис. 5.32. Речевой сигнал расфильтровывается на два диапазона, занимающих полосы частот до 900 гц и выше 1000 гц. В обоих каналах с помощью усилителей-ограничителей
СИГНаЛЫ подвергаются Усилитель -
Предельному Ограничению. ограничитель
Значения частот первой и второй формант в виде функции времени получаются в результате измерения плотностей пе- пРсам?™ное реходов сигналов через нуль. Частотный диапазон первой форманты (от 200 до 800 гц) подразделяется на шесть полос по 100 гц; диапазон второй форманты (от 500 до 2500 гц) — на пять полос по 500 гц. Таким образом, образуется плоскость Fy—F2 с 30 матричными элементами. Для данного произнесенного числа определяется время, в течение которого траектория кривой в плоскости Fi—F2 занимает площадку каждого элемента.
Для каждого числа в машине хранится эталонный образец «времени занятия». Запоминающий механизм состоит из 10 сопротивлений, одновременно присоединяемых к каждой площадке и выполняющих функции весовых коэффициентов. В течение времени занятия данной площадки через эти сопротивления заряжаются 10 различных конденсаторов. Взаимная корреляция между эталонными и измеренными образцами определяется посредством 10 связанных с каждой площадкой проводимостей, взвешенных в соответствии со средним временем занятия этой площадки данным произносимым числом. Иначе говоря, для каждой из 30 площадок имеются 10 реле, которые замыкают цепи заряда 10 конденсаторов, общих для всей схемы. Проводимость данной цепи взвешена пропорционально времени заня-
Усилитель -ограничите/а
Рис. 5.32. Принцип действия устройства для распознавания произнесенных однозначных чисел (Дэвис, Биддалф и Валашек)
Измеряется время занятия каждой площадки; вычисляется корреляция с временем занятия, соответствующим каждому числу; выбирается образец, дающий максимальную корреляцию
214
УСТРОЙСТВА ДЛЯ АНАЛИЗА РЕЧИ
тия этой площадки данным произнесенным числом. Конденсатор, получающий к концу произнесенного числа наибольший заряд, определяет собой образец, дающий наибольшую корреляцию, а следовательно,и само число.
Машина не обеспечивает автоматической подстройки хранимых ею образцов под голоса различных дикторов. Такую операцию необходимо производить вручную. Однако и при выполнении этих условий точность распознавания цифр, переданных по телефону, находится в пределах между 97 и 99% правильных ответов.
Этот способ был распространен на определение степени корреляции (от одного момента времени к другому) между измеренными !мгновенными спектрами амплитуд и эталонными спектральными образцами (Дадли и Валашек—Dudley and BaIa-shek). Для получения мгновенного спектра вместо формантных выделителей был использован набор полосовых фильтров (в частном случае 10 фильтров с полосой пропускания по 300 гц каждый). Эталонные спектральные образцы (в количестве 10 штук) для определения взаимной корреляции непрерывно сравнивались с производимыми фильтрами мгновенными спектрами. Максимальное значение корреляции принималось в качестве указателя произнесенного звука речи. Схема для автоматического распознавания спектральных образцов показана на рис. 5.33. Если Fo(O)n) есть мгновенный спектр амплитуд входного речевого сигнала, производимый п-м количеством фильтровых каналов, и Fj ((Un)—есть /-Й эталонный образец, то величина корреляции
а
Фо,.(0) = JL JV0(Co)Fj(со)dсо, / = 1, 2, 3...
о
приближенно определяется схемой в виде
Cf0J (0)« JL F0 (Con) Fj (соп), /=1,2,3...
л
с последующим выделением того /, которое соответствует максимальной величине фоз(0). Все 10 эталонных образцов звуков в данной разработке представляют собой длительные звуки, а именно /і, І, є, а, о, u, n, г, f, s/.
Описанный способ распознавания спектральных образцов используется в приборе, распознающем 10 однозначных чисел. По аналогии с устройством типа «Одри» каждый выделенный спектральный образец взвешивается в соответствии со временем его пребывания в данном слове (см. нижнюю часть рис. 5.33).
АВТОМАТИЧЕСКОЕ РАСПОЗНАВАНИЕ РЕЧИ
215
И снова для распознавания произнесенного числа выбирается максимальное значение. Окончательно слово определяют следующим образом. Когда появляется очередной спектральный
N- канальный анализатор спектра
Выбранное слаба
Выбор максимума
Рис. 5.33. Схема для автоматического распознавания спектральных образцов и произнесенных однозначных чисел (Дадли и Балашек)