booksshare.net -> Добавить материал -> Биология -> Александров А.А. -> "Компьютерный анализ генетических текстов" -> 27

Компьютерный анализ генетических текстов - Александров А.А.

Александров А.А., Александров Н.Н., Бородовский М.Ю. Компьютерный анализ генетических текстов — М.:Наука , 1990. — 267 c.
ISBN 5-02-004691-4
Скачать (прямая ссылка): komputerniyanalizgeneticheskihtextov1990.djv

Предыдущая << 1 .. 21 22 23 24 25 26 < 27 > 28 29 30 31 32 33 .. 119 >> Следующая

При предсказании частот встречаемости разнесенных 1-грамм можно применять формулы, аналогичные формуле (2.3), например для предсказания частоты встречаемости слова А—G—С использовать частоты встречаемости разнесенных подслов:
Е(А—G—С) = [f(A--G)* f(G--C)]/f(G). (2.7)
В работе Певзнера и др. (Pevzner et al.,1989а) было показано, что предсказания частот встречаемости для разнесенных 1-грамм оказываются значительно более надежными, чем для непрерывных 1-грамм; таким образом словари для для разнесенных 1-грамм оказываются более компактными, чем для непрерывных.
Представляет интерес вопрос о размере "дырок" 1-граммы, при котором возможны надежные предсказания частот встречаемости(ведь и непрерывную 1-грамму можно рассматривать как разнесенную с "дыркой" нулевого размера). Ответ на него представлен в табл. 2.6., где приводятся оценки качества предсказаний на серии 1-грамм
i i
(i=0,15) с дырками размера i.
Анализ табл. 2.6 позволяет выявить интересную закономерность: качество предсказания частот встречаемости разнесенных 1-грамм существенно зависит от размера "дырки": при i=2(mod3),T.e при расстоянии между соседними буквами 1-граммы, кратном 3 (1-граммы вида *------*-----* и т.д.) получаются значительные отклонения от наблю-
даемых частот(строки, соответствующие таким i, выделены звездочкой в табл.2.6), в то время как при расстоянии, не кратном 3, качество предсказания оказывается очень высоким.
Следует заметить, что эта тенденция отчетливо проявляется даже
Таблица 2.6
Оценка качества предсказания частот встречаемости разнесенных 1--грамм вида ( i-размер "дырки")
i LAMBDA Т7 AD2 EBV
0 “ з,ь 3,3 2,1 4,'4
1 1.5 1,5 1,0 2,0
2* 1,1 2,1 2,0 4,1
3 1,0 1,1 0,8 2,4
4 0,8 1,0 0,7 2,3
5* 1,3 1,9 1,8 4,2
6 0,8 1,1 0,6 1,4
7 0,8 1,1 0,8 1,2
8* 1,3 1,1 1,8 3,3
9 0,8 1,1 0,7 1,6
10 0,8 0,9 0,7 1,5
И* 1,3 1,3 1,6 3,4
12 0,8 1,0 0,7 1,2
13 0,8 1,0 0,7 1,2
14* 1,5 1,1 1,5 3,8
15 0,7 1,0 0,6 1,5
16 0,9 0,8 0,7 1,2
17* 1,2 1,3 1,5 2,9
LAMBDA Т 7 AD2 EBV
26 29 18 64
И 7 1 16
2 17 14 36
0 1 1 23
0 1 1 17
4 14 14 45
0 0 0 6
0 0 0 3
3 1 7 36
0 4 1 9
0 1 1 4
3 5 8 36
0 2 0 3
0 1 0 8
3 3 3 38
0 0 0 6
0 0 0 2
3 4 6 36
^ rrTTTTt I гг
Примечание. В левой половине
значения |std(W)| по всем разнесенным 3-граммам W. В правой половине таблицы представлено число "плохих" предсказаний, т.е. число разнесенных 3-грамм W ,для которых std(W)>3.0. Строки, соответствующие i=2(mod3), выделены звездочкой.
при больших размерах "дырок". Можно предположить, что аномально высокие расхождения, наблюдающиеся с периодом 3, связаны с зависимостями, накладываемыми генетическим кодом, при этом "дальнодействие" таких зависимостей довольно велико (Бородовский и др.,19866).
Для предсказания частот встречаемости слов было предложено (Pevzner et al.,1989а) использовать статистические характеристики разнесенных 1-грамм. Так, например, для трехбуквенных слов формулы
Е(AGC)=(f(А_С)•f(AG))/f(А) и f(AGC)=(f(А_С)•f(GC))/f(С) (2.8)
имеют ничуть не меньше "прав на существование", чем обычная формула E(AGC)=(f(AG)*f(GC))/f(G). Более того, ранее было отмечено, что для разнесенных 1-грамм предсказание частот встречаемости оказывается более надежным. Показано также (Pevzner et al.,1989а), что разнесенные 1-граммы - более стационарные слова (см. п.2.4), чем соответствующие непрерывные 1- граммы. Учитывая эти соображения, можно предположить, что включение в формулы предсказания статистических характеристик разнесенных 1- грамм приведет к лучшим результатам, чем обычно используемая формула (2.3).
Для трехбуквенных слов можно предложить формулу
E(AGC)=[( f(AG)2*f(GC)2*f(A_C)2 )/( f(A)• f(G)• f(C) )]>/3, (2.9)
в которой все 2-граммы (как непрерывные, так и разнесенные), входящие в слово AGC, представлены равноправно. Для четырехбуквенных слов формула, учитывающая статистические характеристики разнесенных
1-грамм будет иметь вид
/ ( f (AGC )3•f(AG Т)3 • f (A CT)3 * f( GCT)3) \ 1/6
E(AGCT)= -------------------=-------=--------------------- \ . (2.10)
\ ( f (AG) • f (GC) • f (CT) • f (A_C) * f (G_T) • f (A_T) j
Аналогичные формулы можно привести для 1-грамм любой длины.
В работе Певзнера и flp.(Pevzner et al.,1989а) было показано, что формулы (2.9) и (2.10) дают лучшие предсказания, чем формула (2.3). В качестве критерия качества предсказания можно использовать количество 1-грамм со стандартными отклонениями от ожидаемых значений, большими некоторого фиксированного числа (т.е. количество "плохих" предсказаний). Например, для фага лямбда предсказание трехбуквенных слов по формуле (2.3) дает 26 "плохих" предсказаний (Brendel et al.,1986), а предсказание по формуле (2.9) - только 22.

Предыдущая << 1 .. 21 22 23 24 25 26 < 27 > 28 29 30 31 32 33 .. 119 >> Следующая