Научная литература
booksshare.net -> Добавить материал -> Лингвистика -> Джеймс Л. Фланаган -> "Анализ, синтез и восприятие речи" -> 5

Анализ, синтез и восприятие речи - Джеймс Л. Фланаган

Джеймс Л. Фланаган Анализ, синтез и восприятие речи. Под редакцией Пирогова А.А. — М.: Связь, 1968. — 395 c.
Скачать (прямая ссылка): analizsintivocrech1968.djvu
Предыдущая << 1 .. 2 3 4 < 5 > 6 7 8 9 10 11 .. 149 >> Следующая


') Соответствующие данные имеются для букв печатного английского текста. Здесь также можно видеть условные взаимосвязи, налагаемые свойствами языка. Если все 26 английских букв рассматривать как равновероятные, средняя информация на букву составит 4,7 дв. ед. Если в качестве оценок для P(Xi) использовать относительные частоты появления букв, информация на букву составит 4,1 дв. ед. Если учитывать частоты появления двухбуквенных сочетаний, то при известной предшествующей букве информация на букву составит 3,6 дв. ед. Принимая во внимание частоты появления трехбуквенных сочетаний, эту цифру можно снизить до 3,3 дв. ед. Накладывая и дальше различного рода ограничения, можно получить оценку для полного статистического эффекта. Установлено, что средняя информация на букву для последовательности из 100. букв, выбранной ;из литературного английского текста, составляет величину порядка 1 дв. ед. Это означает, что избыточность здесь составляет примерно 75%. Если рассматривать статистические зависимости, распространяющиеся иа более длительные единицы, такие, как параграфы или главы, то избыточность может оказаться еще большей (Шеннон — Shannon).

ЭФФЕКТИВНАЯ ПЕРЕДАЧИ РЕЧИ

15

Таблица 1.1

ОТНОСИТЕЛЬНАЯ ЧАСТОТА ЗВУКОВ АНГЛИЙСКОЙ РЕЧИ В ОБРАЗЦОВОЙ ПРОЗЕ ПО ДЬЮИ

Гласные и дифтонги

Согласные

фонема
относительная
частота встречаемости
-P^x1) log, P {X1)
фонема
относительная
частота встречаемости
%
-P(X1) log, P (X1)

і
8,53
0,3029
П
7,24
0,2742

а
4,63
0,2052
t
7,13
0,2716

ге
3,95
0,1841
Г
6,88
0,2657

?
3,44
0,1672
S
4,55
0,2028

P
2,81
0,1448
d
4,31
0,1955

А
2,33
0,1264
1
3,74
0,1773

і
2,12
0,1179
O
3,43
0,1669

Є, ЄІ
1,84
0,1061
Z
2,97
0,1507

U
1,60
0,0955
m
2,78
0,1437

al
1,59
0,0950
к
2,71
0,1411

oU
1,30
0,0815
V
2,28
0,1244

0
1,26
0,0795
W
2,08
0,1162

U
0,69
0,0495
P
2,04
0,1146

aU
0,59
0,0437
f
1,84
0,1061

а
0,49
0,0376
h
1,81
0,1048

о
0,33
0,0272
b
1,81
0,1048

Ju
0,31
0,0258

0,96
0,0644

Dl
0,09
0,0091
J
0,82
0,0568




g
0,74
0,0524




J
0,60
0,0443




tj
0,52
0,0395




d;
0,44
0,0344




е
0,37
0,0299




5
0,05
0,0055

Итого
38%


62%


H (¦X) = — S P (Xj) logj P (xj) = 4,9 де. ед. Если все фонемы считать равновероятными, і

то H(X)= log,42=5,4 де. ed.

16

РЕЧЕВАЯ СВЯЗЬ

нем. Поэтому письменный эквивалент производимой информации составит величину, меньшую 50 дв. ед./сек.

Обычная телефонная линия представляет собой не дискретный, а непрерывный канал. Можно показать, что для непрерывного канала существует определенная максимальная скорость безошибочной передачи информации (Shannon and Weaver). Если BW есть полоса пропускаемых каналом частот в герцах, a S и JV — мощности сигнала и шума соответственно, то существует способ кодирования, при котором по каналу можно передать информацию со скоростью G = BW\og^l + (S/N)] де. ед./сек при сколь угодно малой величине ошибки. Стандартный телефонный канал обычно имеет ширину полосы частот не менее 3000 гц и отношение сигнал/шум около 30 дб. В соответствии с приведенной формулой такой канал обладает пропускной способностью, позволяющей передавать информацию со скоростью 30000 дв. ед./сек.

Подобные величины двоичных скоростей характерны для обычной цифровой передачи речевого сигнала, т. е. без дополнительного кодирования для сокращения емкости канала. Например, при передаче методом импульсно-кодовой модуляции (ИКМ) дискретные значения сигнала следуют с частотой Найквиста (2 BW) 1), а квантование по амплитуде, исходя из допустимой величины искажений, обычно выполняется с точностью до 1— 2%. Таким образом, при 64 уровнях квантования (6 дв. ед.) типичная величина двоичной скорости составит 2 (3000) log2O4 = = 36 000 дв. ед./сек.

Эта величина пропускной способности примерно в 600— 700 раз больше той, которая требуется для письменного эквивалента речи. Последний, по-видимому, можно передать по каналу с шириной полосы частот всего лишь около 5 гц при отношении сигнал/шум, равном 30 дб. Означает ли это, что в акустическом речевом сигнале содержится в 600 раз больше информации, чем в его дискретно записанном эквиваленте? Или это говорит о том, что изменяющаяся во времени форма акустической волны представляет собой недостаточно эффективный код для речевой информации? Означает ли это, что человек способен перерабатывать информацию со скоростью 30000 дв. ед./сек? Или это свидетельствует о том, что приемник отбрасывает большую часть переданной информации?

Интуиция нам подсказывает, что в акустическом сигнале содержится больше информации, чем в письменном эквиваленте. Неясно, однако, во сколько раз. Неясно даже, как эту икформа-

') Советским специалистам это соотношение известно как теорема К о -тельиикова (прим. ред.).
Предыдущая << 1 .. 2 3 4 < 5 > 6 7 8 9 10 11 .. 149 >> Следующая

Реклама

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed

Есть, чем поделиться? Отправьте
материал
нам
Авторские права © 2009 BooksShare.
Все права защищены.
Rambler's Top100

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed