Научная литература
booksshare.net -> Добавить материал -> Биология -> Александров А.А. -> "Компьютерный анализ генетических текстов" -> 47

Компьютерный анализ генетических текстов - Александров А.А.

Александров А.А., Александров Н.Н., Бородовский М.Ю. Компьютерный анализ генетических текстов — М.:Наука , 1990. — 267 c.
ISBN 5-02-004691-4
Скачать (прямая ссылка): komputerniyanalizgeneticheskihtextov1990.djv
Предыдущая << 1 .. 41 42 43 44 45 46 < 47 > 48 49 50 51 52 53 .. 119 >> Следующая

Для пояснения существа алгоритма тип модели не имеет значения.
Возьмем (для определенности) неоднородную марковскую цепь первого порядка. Такая цепь задается тремя векторами начальных вероятностей
Р‘(а), a=T,C,A,G и тремя матрицами переходных вероятностей размера
4x4 P‘(b|a), a,b = T,C,A,G, i =1,2,3. Численные значения составляю-
щих векторов и элементов матриц приведены в табл.2.2 и 2.3 гл. 2.
Первым шагом алгоритма является вычисление четырех вспомогательных величин-статистик для фрагмента Z. Одна из них - P(Z|H) - определяет вероятность случайного обнаружения фрагмента, идентичного Z в некодирующей области, и вычисляется по формуле
P(Z|H) = P(a1)-P(a2|a,)-...-P(aJan_1). (3.8)
Три других величины обозначим через P(Z|kl), P(Z|k2) и P(Z|k3). P(Z|kl) есть вероятность случайного обнаружения фрагмента в кодирующей области и в таком положении, что нуклеотид а, оказывается в первой позиции некоторого кодона. P(Z|k2) и P(Z|k3) определяют вероятности
обнаружения фрагмента Z в кодирующей области и в положении, когда нуклеотид а, занимает вторую или третью позиции некоторого кодона соответственно. Имеем
P(Z|kl) = P1(a1)-P1(aJa1)-P2(a3|a2)-...-P2(aJan_1),
P(Z|k2) = P2(a1)-P,(aJal)'P3(a3|a2)-...*P3(an|an_l), (3.9)
P(Z|k3) = P»(a1)-Ps(a1|aI)*P,{as|a1)*...-P,(a1I|a1I_I).
Теперь можно вычислить представляющие главный интерес значения вероятностей Р(Н|Z) и P(ki|Z), i=l,2,3, дающие предсказания о том, находимся ли мы в кодирующей или некодирующей области. Причем достаточно а
0,5
J
Рис. 3.6. Графики функций-индикаторов кодирующих областей для последовательности ECRECA в трех рамках считывания (а-в)
Применение метода марковских цепей с параметрами Т=(1,16)
будет определить величины P(kl|Z), так как с большой степенью точности можно принять, что P(H|Z)=1- P(kl|Z) - P(k2|Z) - P(k3|Z). Исходя из формулы Байеса получим
р/w |71 _ P(Z[k, )*P(k,)___________ .
P(k‘1Z) ~ E P(Z|ki)-P(ki)+P(Z|H)P(H) ‘ (ЗЛ0)
Здесь Р(Н) и Р(к.), i=l,2,3 являются так называемыми априорными
вероятностями событий Н и К, . Эти величины дают оценку вероятности принадлежности фрагмента к некодирующей или кодирующей области еще до того, как становится известна конкретная первичная структура фрагмента Z. Естественно принять, что Р(Н)= 1/2, P(k. )=1/6, i =1,2,3. Аналогами этих величин в п.3.3 являются величины Q., i=1,2,3 и QH.
Подобным же образом определяются величины P(kJZ), i=l,2,3 и P(H|Z) в тех случаях, когда моделью кодирующей области является неоднородная марковская цепь нулевого или второго порядка. В частности,
J и с. 3.7. Графики функций-индикаторов кодирующих областей для последовательности ECLEXX в трех рамках считывания (а-в)
Применение метода марковских цепей с параметрами V=(1,16)
для г=0 в формулах (3.9) появляется произведение позиционных вероятностей встречаемости нуклеотидов (см. табл.2.1 гл.2). Для случая г=2 данные берутся из табл. 2.3 гл. 2.
Таким образом,Формальная сторона метода сводится к вычислению по ¦ормулам (3.8-3.10) значений P(kjZ), i=1,2,3 для множества фрагментов. которое генерируется окном, скользящим по рассматриваемой последовательности ДНК.
Обсуждение возможностей метода. Изложенный выше метод был реализован на микроЭВМ "Искра-226" таким образом, что допускалось использование любой из трех марковских моделей кодирующей области. Параметр w
- ширину окна сканирования последовательности - можно было принять равным 16, 2 или 48 кодонам. Окно последовательно сдвигалось на два
кодона и в калсдом положении вычислялись вероятности P(kJZ) i =1,2,3 для фрагмента, попадавшего в просвет окна. Эти значения ставились в соответствие центру полученного фрагмента. Далее для сокращенного обозначения варианта расчета будем использовать запись V=(r,w), указывающую порядок кодирующей области г и значение параметра w.
Рис. 3.8. Графики функций-индикаторов кодирующих областей для последовательности ECARAC в трех рамках считывания (а-в)
Применение метода марковских цепей с параметрами V=(1,16)
Для иллюстрации возможностей алгоритма были взяты последовательности ECRECA, ECLEXX и ECARAC (обозначения из описания банка EMBL), длиной 1390, 943 и 1246 нуклеотидов соответственно.
Последовательность ECRECA на участке (238, 1296) содержит ген
гесА регуляторного белка SOS-системы E.coli, обладающий способностью к интенсивной экспрессии. Фрагмент (102, 707) последовательности ECLEXX
является умеренно экспрессируемым геном белка 1ехА, который репрессирует синтез белков SOS-системы. Последовательность ECARAC содержит низкоэкспрессируемый ген агаС (270, 1145), который кодирует бе-
лок-репрессор арабинозного оперона.
Для пояснения выбора объектов для анализа напомним, что закономерности неслучайного использования синонимических кодонов в бактериальных генах могут быть связаны со степенью их экспрессии в клетке. С другой стороны, выбор кодонов отражается и на статистических характеристиках нуклеотидных последовательностей кодирующих областей. Поэтому представляет интерес сопоставление результатов применения алгоритма для кодирующих последовательностей со значительными различиями в правилах выбора синонимических кодонов.
Предыдущая << 1 .. 41 42 43 44 45 46 < 47 > 48 49 50 51 52 53 .. 119 >> Следующая

Реклама

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed

Есть, чем поделиться? Отправьте
материал
нам
Авторские права © 2009 BooksShare.
Все права защищены.
Rambler's Top100

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed