booksshare.net -> Добавить материал -> Лингвистика -> Джеймс Л. Фланаган -> "Анализ, синтез и восприятие речи" -> 80

Анализ, синтез и восприятие речи - Джеймс Л. Фланаган

Джеймс Л. Фланаган Анализ, синтез и восприятие речи. Под редакцией Пирогова А.А. — М.: Связь, 1968. — 395 c.
Скачать (прямая ссылка): analizsintivocrech1968.djvu

Предыдущая << 1 .. 74 75 76 77 78 79 < 80 > 81 82 83 84 85 86 .. 149 >> Следующая

В ходе этого исследования трехмерные образцы с координатами время—частота—интенсивность были сведены к двумерным путем суммирования последовательных значений сигналов от каждого фильтрового канала в течение всей длительности произносимого слова. В результате такого суммирования для каждого образца получается интегральная кривая зависимости интенсивности от частоты. Было найдено, что эта операция также обеспечивает 89% точности распознавания.

Из подобных экспериментов трудно сделать заключение о том, каким образом сам человек опознает говорящего. Однако для сравнительно небольшого числа специальных приложений, где количество дикторов и их словарь могут быть ограничены, такие способы могут найти успешное применение.

Предпринималось также исследование возможности распознавания дикторов человеком по визуальной оценке речевых спектрограмм (Керста—Kersta, 1948, 1962, а).

Группу дикторов в количестве 5, 9 или 12 человек просили произносить 10 ключевых слов с четырехкратным повторением. По полученным данным изготавливались с помощью полосного анализатора обычные спектрограммы и контурные спектрограммы (см. раздел 5.1.5). Для каждого слова демонстрировалась произвольно составленная матрица спектрограмм, содержащая по четыре образца для каждого диктора. Испытуемых просили опознать слова, произнесенные каждым диктором в отдельности. Ошибка при определении группы отпечатков, соответствующих одному диктору, лежала в пределах от 0,35 до 1,0% для спектрограмм, сделанных с помощью полосного анализатора и от 0,37 и 1,5% для контурных спектрограмм. Когда испытываемые слова выбирались из контекста, величина ошибки также оставалась примерно в прежних пределах.

В основу второго эксперимента был положен дактилоскопический способ опознавания. Для 12 дикторов была составлена картотека отпечатков голосов при произношении ими пяти ключевых слов. Затем испытуемым предлагалось опознать различные наборы слов, !произнесенных неизвестными членами группы, путем сопоставления их с эталонными наборами. При использовании групп из 5 ключевых слов количество ошибочных опознаний составило менее 1%. Идентификация, 'основанная на последовательном использовании двух таких групп, дает ошибку менее 0,5%. Были проведены предварительные исследования по установлению возможности распознавания измененных голосов. На основании полученных результатов было установлено, что у взрослых имеются определенные неизменные лингвистические

АВТОМАТИЧЕСКОЕ РАСПОЗНАВАНИЕ ДИКТОРА

221

и физиологические характеристики, которые могут быть обнаружены с помощью спектрографа даже в том случае, когда делаются попытки изменить голос.

Дикторы отличаются друг от друга множеством признаков. У людей наблюдается большое разнообразие размеров и форм голосового тракта; отличия в характеристиках затухания, размерах рта и голосовой щели. Сюда же относятся особенности связи носового тракта, его размеры и характеристики затухания. Можно указать также на временные характеристики интенсивности (ударения) и основного тона (интонации). Кроме того, заметные отличия вносят различного рода препятствия в голосовом тракте и вариации в работе зубного аппарата. Результаты воздействия многих из этих факторов сохраняются в звуковых спектрограммах. Однако процесс визуального отождествления спектрограмм полностью отличается от процесса слухового распознавания дикторов. И все же сохранившиеся на спектрограмме признаки сигнала, очевидно, аналогичны тем, которые использует ухо.

Описанные эксперименты по разпознаванию речи и идентификации дикторов мало что говорят нам о той процедуре, которую использует для этого сам человек. Они не позволяют установить, например, длительность используемой человеком единицы распознавания. Они не указывают также субъективных методов измерения, которые позволили бы установить, что нужно принять в качестве единицы: фонему, слово, фразу или нечто еще большее. Применявшиеся в экспериментах схемы имели в основном цель осуществлять искусственную обработку собственно акустического сигнала, а не разрабатывать методику восприятия.

Механизм восприятия речи трудно поддается анализу, и мы имеем о нем очень ограниченные сведения. В гл. IV показано, что для сигналов с простой временной и спектральной структурами может быть установлена достаточно тесная связь в периферическом отделе слухового аппарата между субъективным поведением и известной физиологией этой части слухового аппарата. До некоторой степени аналогичные соотношения могут быть установлены и для речевых сигналов (например, такие их характерные особенности, как основной тон, формантная частота и характер возбуждения, можно тождественно описать посредством законов перемещения базнлярной мембраны). Однако вопрос о хранении и обрабатывании данных, поступающих из периферийного отдела по нервным каналам, до сих пор остается открытым. Можно надеяться, что непрерывные исследования электрофизиологии слухового тракта и реакции человека на речевые сигналы приведут хотя бы к частичному решению этого вопроса.

Предыдущая << 1 .. 74 75 76 77 78 79 < 80 > 81 82 83 84 85 86 .. 149 >> Следующая