Научная литература
booksshare.net -> Добавить материал -> Биология -> Александров А.А. -> "Компьютерный анализ генетических текстов" -> 28

Компьютерный анализ генетических текстов - Александров А.А.

Александров А.А., Александров Н.Н., Бородовский М.Ю. Компьютерный анализ генетических текстов — М.:Наука , 1990. — 267 c.
ISBN 5-02-004691-4
Скачать (прямая ссылка): komputerniyanalizgeneticheskihtextov1990.djv
Предыдущая << 1 .. 22 23 24 25 26 27 < 28 > 29 30 31 32 33 34 .. 119 >> Следующая

2.4.АНАЛИЗ ЗОННОЙ СТРУКТУРЫ ГЕНОМОВ
Неравномерное распределение слов в генетических текстах. При предсказании частоты встречаемости слова в тексте используется средняя частота встречаемости подслов. Например, (Brendel et al.,1986) предсказание ожидаемой частоты встреч E(AGC) слова AGC опирается на формулу (однородная марковская модель 1-го порядка)
E(AGC)=f(AG)*f(GC)/f(G), (2.11)
использующую наблюдаемые частоты встреч подслов AG.GC и G слова AGC. При этом не учитывается, что подслова AG, GC и G могут быть неравномерно распределены по генетическому тексту и подстановка их средних частот в формулу (2.11) может привести к систематической1ошибке. Таким образом, однородные марковские модели (даже больших порядков) далеко не всегда являются адекватной моделью генетического текста, и иногда без учета неоднородности нельзя получить надежного предсказания числа встреч слова в тексте.
Еще в 197? г. (Машко и др.,1977) расхождение теоретических и экспериментальных данных о частоте встречаемости рестрикционных сай-
тов пытались объяснить неоднородностью исследовавшихся геномов. Для описания неоднородных генетических текстов, т.е. текстов с различными статистическими характеристиками разных частей, можно предложить общую модель неоднородной марковской цепи (Бородовский и др.,19866). При введении неоднородной марковской цепи генетический текст разбивается на зоны, при этом каждая зона характеризуется своими переходными вероятностями, которые определяются статистическими характеристиками только этой зоны. Таким образом, при переходе к неоднородной модели вместо рассмотрения одной (общей для всего текста) матрицы переходных вероятностей (ри) приходится рассматривать t матриц переходных вероятностей, где t - число частей, на которые разбивается генетический текст. Такой подход позволяет показать, что для ряда слов большие отклонения от ожидаемых частот встречаемости объясняются не "биологическим" смыслом, а неоднородностью генетического текста (другой подход к неоднородности генетических текстов может быть развит на основе анализа информационных профилей (Claverie, Bougueleret,1986). Так, например, для фага лямбда, если не учитывать неоднородность, слова ААА и ТТТ оказываются значимыми (стандартные отклонения 4,75 и 4,78), в то время как при расчетах на неоднородной марковской модели с длиной блока 360 стандартные отклонения для этих слов оказываются меньше 3 (в дальнейшем будет показано, что ААА и ТТТ - нестационарные слова в ДНК фага лямбда). По-видимому, в словарь (Brendel et al.,1986) значимых слов следует вводить лишь те слова с большими отклонениями от ожидаемых значений, число появлений которых не может быть предсказано и неоднородной моделью генетического текста.
Стационарные и нестационарные слова в генетических текстах. Для анализа неоднородных генетических текстов введем понятие стационарных и нестационарных слов. Зафиксируем слово W и размер окна L. Обозначим через fw(i), i=l,N-L+l - число появлений слова W в окне размера L, начинающемся в позиции i (таким образом, fw(i) -число появлений слова W в позициях i........i+L-1).
Пусть gw(k) - количество позиций i, для которых fw(i)=k. Функция gw(k) характеризует равномерность распределения слова W в генетическом тексте: если W относительно равномерно распределено по
тексту, то gw(k) имеет четко выраженный "пик", в противном случае g„(k) скорее похоже на "плато". В работе Певзнера и flp.(Pevzner et al.,1989b) анализировались функции gw(k) для различных слов W. Для всех рассматривавшихся текстов оказалось, что вид функции gw(k) существенно зависит от слова W: функции gw(k) для W, состоящего как из слабых, так и из сильных нуклеотидов, имели, как правило, явно выраженный пик, а функции gw(k) для W, являющегося polyW- или polyS-трактом, имели, как правило, вид плато ("слабыми" нуклеотидами (Weak) мы называем А,Т, а "сильными" (Strong) - G,C, polyW(polyS)-
Р и с.2.5. Графики функций gAA(k)
(пунктирная кривая) и gAC(k) (непрерывная кривая), характеризующие равномерность
распределения слов АА и АС в ДНК фага лямбда. Функция gAC(k) имеет четко
выраженный ’пик" (AC-стационарное слово) в отличие от функции gAA(k) (АА - нестационарное слово)
тракт - последовательность из слабых (сильных) нуклеотидов ). На
рис.2.5 в качестве примера приводятся функции gAA(k) и gAC(k)).
Можно ввести среднее значение и среднеквадратичное отклонение для распределения fw(i):
N-L+l
M=1/(N-L+1) E f„(i) , (2.12)
i=l
N-L+l
6= (1/(N-L+1) E ( fw( i )-E)2)1/2. (2.13)
i=l
В большинстве работ по лингвистике ДНК среднеквадратичное отклонение для числа встреч слова в окне оценивается как М1/2 (ранее
Предыдущая << 1 .. 22 23 24 25 26 27 < 28 > 29 30 31 32 33 34 .. 119 >> Следующая

Реклама

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed

Есть, чем поделиться? Отправьте
материал
нам
Авторские права © 2009 BooksShare.
Все права защищены.
Rambler's Top100

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed