Научная литература
booksshare.net -> Добавить материал -> Медицина -> Чистович Л.А. -> "Физиология речи. Восприятие речи человеком" -> 11

Физиология речи. Восприятие речи человеком - Чистович Л.А.

Чистович Л.А. , Венцов А. В., Гранстрем М.П. Физиология речи. Восприятие речи человеком — Л.: Наука, 1976. — 388 c.
Скачать (прямая ссылка): fizrech1976.djvu
Предыдущая << 1 .. 5 6 7 8 9 10 < 11 > 12 13 14 15 16 17 .. 159 >> Следующая

88, 146]
1.4.1. АВТОМАТИЧЕСКОЕ РАСПОЗНАВАНИЕ РЕЧИ И ПРОБЛЕМА РАСПОЗНАВАНИЯ ОБРАЗОВ
Первая попытка создать техническое устройство, способное распознавать звуки речи, была предпринята Мяснико-вым в начале сороковых годов [ш- 11а]. однако серьезный интерес к проблеме автоматического распознавания речи со стороны математиков и инженеров возник примерно 15 лет тому назад. Задача автоматического распознавания речи рассматривалась в то время как частный случай общей проблемы распознавания образов.
28
Основные усилия были направлены на анализ и формализацию проблемы, определение необходимой системы понятий, поиск адекватного математического аппарата.
Читателю, желающему познакомиться с теорией распознавания образов, следует обратиться к специальной литературе [60, 68, 69, 124] 2 настоящей книге мы ограничимся очень кратким и схематическим изложением основных идей подхода.
Распознавание образа в живой и неживой системе рассматривается как результат обучения. В процессе обучения системе предъявляются изображения сигналов и сообщаемые «учителем» названия классов, к которым принадлежат эти изображения (сигналы). Изображения сигнала соответствуют указанию значений сигнала по некоторому произвольно выбранному набору признаков (хг, х2, . . ., хп). Соответственно каждое единичное изображение может быть представлено точкой в га-мерном пространстве измеряемых признаков сигнала. Обучающаяся система использует гипотезу о том, что изображения, относящиеся к одному и тому же классу, образуют компактные множества в пространстве признаков сигнала, т. е. каждому классу соответствует определенная область в этом га-мерном пространстве. Задача системы состоит в том, чтобы найти наилучшие границы между областями. При предположении, что граница между двумя областями соответствует гиперплоскости, определение границы сводится к подбору коэффициентов а0, аг, . . ., ап в уравнении, описывающем эту
гиперплоскость: а0 + 2 а<г< = О* Это уравнение называется линей-
пой решающей функцией. Если значение я0+2 аА больше нуля,
1=1
то изображение относится к одному классу, если оно меньше нуля, то изображение относится к другому классу. Значения коэффициентов а0, а1, . . ., ап подбираются так, чтобы минимизировать вероятность ошибочной классификации.
В случае автоматического распознавания речевых сигналов такой общий подход был использован как для фонемного распознавания звуков речи, так и для распознавания изолированных слов-команд. В случае изолированных слов каждое слово рассматривалось как самостоятельный образ. Изображение слова включало признаки звукового сигнала, соответствующего слову в целом.
Хотя задача автоматического распознавания изолированных слов-команд из ограниченного набора (от 5—10 до 50—200 слов) решается довольно успешно [28, 33 80, 133] и находит практическое применение [11в], в научном отношении она не представляет большого интереса. От нее не может быть перехода к распознаванию естественной связной речи.
Не существует сомнений, что распознавание связной речи должно основываться на фонемном или близком к фонемному распознавании. При фонемном распознавании изолированных зву-
29
ков речи звуки речи рассматривались как сигналы, а фонемы — как названия классов. Решающие функции, найденные в процессе обучения, соответствовали границам между фонемными областями в пространстве выбранных исследователями признаков сигнала. Как выяснилось, автоматическое фонемное распознавание изолированно произнесенных звуков речи (преимущественно исследовались гласные) может не уступать по надежности фонемному распознаванию их человеком [88]. Однако система, обученная на изолированных звуках речи, оказывается практически неработоспособной в условиях, когда ей предъявляется для распознавания связная речь.
Мы остановимся лишь на нескольких из огромного числа вопросов, с которыми столкнулись исследователи, пытавшиеся разработать системы для автоматического фонемного распознавания связной речи.
Как уже говорилось, система автоматического распознавания образов формируется под влиянием «учителя», который знает возможные классы сигналов и сообщает относительно каждого сигнала, к какому классу он относится. В роли такого учителя системы автоматического распознавания речи обычно выступает лингвист.
Предполагалось, что, слушая речевой поток, лингвист может точно указать моменты времени, когда начинается и кончается данная фонема, причем у него не возникает сомнений в том, какая именно фонема произносится. Реально оказалось, что оба эти предположения не оправдываются (см. главы 2 и 3). Последовательно прослушивая отрезки речевого потока, соответствующие примерно слогам, фонетисты могут более или менее однозначно записать сигнал последовательностью фонетических символов, соответствующих фонемным вариантам или аллофонам (число их значительно превышает число фонем). Для фонемной записи звука речи нужно в ряде случаев услышать или слово в целом, или даже несколько соседних слов.
"5Уже на первых этапах работы по автоматическому распознаванию звуков речи стало ясно, что нужны какие-то гипотезы, направляющие выбор полезных признаков сигнала. Математические методы позволяют сравнить эффективность выбранных систем признаков или уменьшить размерность описания, однако сам изначальный выбор признаков оказывается вне пределов теории распознавания. Вопрос о выборе подходящих признаков становится особенно важным, когда дело идет об описании принципиально нестационарных сигналов, как это имеет место в случае естественного речевого потока. С вопросом выбора признаков тесно связан вопрос о сегментации речевого потока. Если возможно предварительное разделение потока на элементарные отрезки, то в качестве полезных признаков могут выступать свойства отрезков.
Предыдущая << 1 .. 5 6 7 8 9 10 < 11 > 12 13 14 15 16 17 .. 159 >> Следующая

Реклама

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed

Есть, чем поделиться? Отправьте
материал
нам
Авторские права © 2009 BooksShare.
Все права защищены.
Rambler's Top100

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed