Научная литература
booksshare.net -> Добавить материал -> Лингвистика -> Джеймс Л. Фланаган -> "Анализ, синтез и восприятие речи" -> 79

Анализ, синтез и восприятие речи - Джеймс Л. Фланаган

Джеймс Л. Фланаган Анализ, синтез и восприятие речи. Под редакцией Пирогова А.А. — М.: Связь, 1968. — 395 c.
Скачать (прямая ссылка): analizsintivocrech1968.djvu
Предыдущая << 1 .. 73 74 75 76 77 78 < 79 > 80 81 82 83 84 85 .. 149 >> Следующая


218

УСТРОЙСТВА ДЛЯ АНАЛИЗА РЕЧИ

стоте, интенсивности и во времени. Амплитудные значения нормируются так, чтобы сумма их квадратов для всего частотно-временного блока равнялась единице. Измеренный образец с координатами время—частота—интенсивность для определения взаимной корреляции сравнивается с образцами, хранящимися в запоминающем устройстве. Эта корреляция находится путем перемножения амплитудных значений соответствующих элементов в частотно-временной плоскости с последующим суммированием результатов перемножения для всех элементов этой плоскости. Из устройства памяти выбирается тот образец, который оказывается максимально коррелированным с измеренным.

При желании можно осуществить нормализацию данных во времени. Для этого определяются местоположения начала и конца произнесенного числа и полученные данные растягиваются во времени для подгонки под стандартную длительность (фактически она составляет 60 периодов развертки сигналов гребенки фильтров, образуемых со скоростью 70 сек~1 ). Без нормализации определяется только начало каждого произнесенного числа и используются лишь первые 60 периодов развертки.

Эталонный образец для каждого числа получается путем усреднения спектральных данных для трех образцов этого числа, произнесенных каждым из пяти дикторов-мужчин. Эти эталонные образцы используются для распознавания чисел, произносимых теми же и другими дикторами. В том случае, когда различные цифры произносились теми же пятью дикторами, было найдено, что величина ошибки составляет 6% при наличии нормализации во времени и 13% при ее отсутствии. Когда эталонный образец подбирался только под одного диктора, произносимые этим диктором числа распознавались, по существу, безошибочно.

Рассмотрение приведенных выше примеров представляет собой попытку проследить пути развития автоматического распознавания речи. При этом не было упомянуто большое число относящихся к этому вопросу работ (например, Смит—Smith, 1951; Бауман—Baumann; Ликлайдер и Хьюленд—Licklider and Howl and; Олсон и Белар—Olson and Belar; Форджи и Форджи— Forgie I. W. and Forgie С. D.; Фрик—Frick; Дрейфус-Граф — Dreyfus-Graf). Большинство исследователей признают, что в качестве отправной точки должен служить мгновенный спектр. Из рассмотренного выше ясно, что предложенные схемы не позволяют сделать выводов ни о том, как человек обрабатывает речевую информацию, ни о том, как он распознает лингвистические элементы. Ни одна из этих схем не может удовлетворительно работать ни с большим числом голосов, ни с большим словарем. Человек в обоих случаях имеет преимущество. Тем

АВТОМАТИЧЕСКОЕ РАСПОЗНАВАНИЕ РЕЧИ

219

не менее исследования устанавливают определенные возможности, которые могут быть реализованы в управляемых голосом устройствах, предназначенных для специальных целей, особенно когда словарный запас и число голосов могут быть сильно ограничены.

Осуществление автоматического анализа речи (так, как может делать мозг человека), вероятно, станет возможным только через соответствующий анализ с применением грамматических, контекстуальных и семантических закономерностей. Такой подход предполагает также наличие определенного акустического анализа, который сохраняет ту же информацию, что и ухо человека. В то же время очевидно, что для заданной точности распознавания может быть установлено компромиссное решение между необходимым объемом лингвистических взаимосвязей, сложностью словаря и числом дикторов.

5.6. Автоматическое распознавание диктора

Выше было установлено, что образцы спектров, полученные от одного диктора, не всегда подходят для распознавания речи другого. Этот факт указывает на возможность использования спектральных данных для распознавания различных дикторов. Было приложено много усилий в этом направлении, особенно с использованием вычислительных машин. Для иллюстрации рассмотрим один из способов, в котором квантованные образцы (спектрограммы) в измерениях время—частота—интенсивность получаются посредством развертки во времени со скоростью 100 сек~1 сигналов от 17-канального параллельного анализатора (Пружанский — Pruzansky). Для 10 различных дикторов (трех женщин, семи мужчин) из контекста было выбрано 10 ключевых слов. Чтобы установить для каждого испытуемого эталонные образцы, был произведен отбор из группы образцов, полученных трехкратным повторением каждого из 10 ключевых слов.

Для опознания говорящего образцы спектрограмм различных ключевых слов, произнесенных неизвестным диктором из группы испытуемых, сравниваются с эталонными образцами. В результате сравнения определяется их взаимная корреляция (как и прежде, путем перемножения амплитудных значений каждого элемента частотно-временной плоскости спектрограммы) с последующим выбором максимального значения корреляции. Поскольку произнесенные образцы различаются по длительности, они выравниваются путем совмещения всех максимальных значений. Испытания показали, что из 10 дикторов,

220

УСТРОЙСТВА ДЛЯ АНАЛИЗА РЕЧИ

для которых были подобраны эталонные образцы, правильное опознание было сделано в 89% случаев.
Предыдущая << 1 .. 73 74 75 76 77 78 < 79 > 80 81 82 83 84 85 .. 149 >> Следующая

Реклама

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed

Есть, чем поделиться? Отправьте
материал
нам
Авторские права © 2009 BooksShare.
Все права защищены.
Rambler's Top100

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed