booksshare.net -> Добавить материал -> Лингвистика -> Деркач М.Ф. -> "Динамические спектры речевых сигналов" -> 50

Динамические спектры речевых сигналов - Деркач М.Ф.

Деркач М.Ф., Гумецкий Р.Я., Гура Б.М., Чабан М.Е. Динамические спектры речевых сигналов — Лв.: Высшая школа, 1983. — 168 c.
Скачать (прямая ссылка): dinamichspektrrechsignal1983.djvu

Предыдущая << 1 .. 44 45 46 47 48 49 < 50 > 51 52 .. 53 >> Следующая

Вторая важная сфера применения метода динамической * спектрографии находится в области решения проблемы синтеза речи. Эта многообещающая проблема богата практическими приложениями. Одновременно с этим синтез речи является важнейшим средством проверки значимости для восприятия тех спектрально-временных ключевых признаков звуков речи, которые, являясь акустическими коррелятами воспринимаемых слухом характеристик способа, места и источника образования речевого сигнала, визуализируются на динамических спектрограммах речи.
Принцип синтеза речи показан на рис. 5.5.1, где приведена блок-схема синтезатора ОУЕ— III, разработанного в лаборатории речевой коммуникации Королевского технологического института в Стокгольме [43]. Синтезатор ОУЕ—III состоит из трех отдельных параллельных ветвей, соединенных общим выводом. Первая—. ветвь Ё — служит для задания акустических коррелятов конфигурации полости рта и определяется формантными частотами ?1, /•"2, /ч? и Р4 с соответствующими ширинами полос. Ширина полосы, а также соответствующие постоянные времени сглаживающих фильтров не контролируются в ходе непосредственного синтеза, а задаются предварительно. Формантная ветвь F может быть связана с источником голоса ИГ или шума ИШ, или с тем и другим одновременно. В первом случае уровень звука регулируется бло-
157
ИГ -9* АО - Е
•АН
?
7Г
AN¦
К0,К1,К2
АС-1
о—о 1Т
Рис. 5.5.1. Функциональная схема синтезатора речи ОУЕ — 3 [43]. Объяснение в тексте.
ком управления амплитудой источника голоса АО. Это имеет место, например, при синтезе гласных. В том случае, когда ветвь Т7 соединяется с источником шума, его уровень регулируется блоком управления амплитудой аспиративного шума АН в режиме образования придыхательных звуков (места управления показаны широкими стрелками). Вторая, фрикативная ветвь, охватывающая два резонанса КД и К2 и один антирезонанс КО, предназначена для формирования спектра сегментов фрикативного шума. Его интенсивность регулируется блоком управления уровня фрикативного шума АС. Третья, назальная, ветвь используется для задания назального резонанса и предназначена, главным образом, для воспроизведения назальных согласных или назализованных гласных, а блок АЫ предназначен для управления уровнем назальной ветви системы.
Указанная организация управляемых параметров хорошо согласуется с развиваемой Г. Фантом акустической теорией спецификации сегментов согласно их фонетической природе, отражающей их образование [29]. Следует подчеркнуть, что здесь относительные уровни формант не контролируются независимо, а функционально вытекают из частотного расположения задаваемых формант.
Идея фонемного синтеза состоит в том, чтобы обеспечить слитную разборчивую речь, задаваемую пофонемно печатанием последовательности буквенных символов с пульта управления, независимо от взаимосочетаний фонем в различных текстах. Поскольку синтезируемое сообщение задается как последовательность фонем, исходная и принципиально важная часть работ по синтезу заключается в формировании в памяти машины библиотеки фонем. Каждый фонемный образец в библиотеке фонем представляет собой набор управляемых параметров, которые задаются ступенчато с соответствующими временными индексами и указанием абсолютной длительности для каждого из них. При составлении сочетаний фонем эти' параметры стыкуются, сохраняя по-
158
I | I ¦ I ¦ I ' I '¦ I ' I 1 I ' I ' I '"I1 1 I 1 I М ' I ' I ' I ' Г"* О 0.1 0.2 0.3 0.4 0.5 0.6 0.7 .0.8 0.9 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.6с
1К
шш
¦ I I I I I I I ' I 1 I 1 I 1 I 1 I 1' I 1 I 1 I 1 I ' I 1 I ' I ' I 1 I 1 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.вс
Рис. 5.5.2. Динамическая спектрограмма хорошо разборчивой фразы «Девушка, как тебя зовут?», синтезированной с помощью синтезатора речи ОУЕ—3. В верхнем ряду — [д'Эвуш-ка — как]; в нижнем — [т'эб'А—завУт]. Дополнительный короткий шумовой сегмент перед словом «как» является артефактом.
следовательность их поступления во времени, а соответствующие фильтры сглаживают задаваемые ступенчатые изменения, обеспечивая плавность акустического выхода и сохраняя специфику переходных процессов. Процедура ступенчатого управления синтезом речи исходит из концепции инерционности речедвигательно-го аппарата, управляемого дискретными импульсными командами нервной системы.
Современная техника синтеза речи позволяет осуществить синтез любых высказываний по правилам, учитывающим, как собственные характеристики звуков речи, так и закономерности их взаимного влияния друг на друга на оси времени. Эти правила, закладываемые в памяти компьютера, управляющего синтезатором, предварительно тщательно изучаются для каждого языка посредством сопоставления динамических спектрограмм образцов естественной и синтезированной речи.
В настоящее время качество синтезированной речи, создаваемой лабораторными и промышленными синтезаторами, достигает высокого уровня. На рис. 5.5.2 приведен пример динамической спектрограммы фразы «Девушка, как тебя зовут?», синтезированной при помощи синтезатора ОУЕ—III. На ней отражены в несколько подчеркнутом виде основные спектрально-временные ключи составляющих ее звуков и специфика их взаимной коартику-ляции [12, 45].

Предыдущая << 1 .. 44 45 46 47 48 49 < 50 > 51 52 .. 53 >> Следующая