booksshare.net -> Добавить материал -> Биология -> Александров А.А. -> "Компьютерный анализ генетических текстов" -> 44

Компьютерный анализ генетических текстов - Александров А.А.

Александров А.А., Александров Н.Н., Бородовский М.Ю. Компьютерный анализ генетических текстов — М.:Наука , 1990. — 267 c.
ISBN 5-02-004691-4
Скачать (прямая ссылка): komputerniyanalizgeneticheskihtextov1990.djv

Предыдущая << 1 .. 38 39 40 41 42 43 < 44 > 45 46 47 48 49 50 .. 119 >> Следующая

Методы, связанные со статистикой нуклеотидов в третьей позиции кодона. В нуклеотидных последовательностях кодирующих областей особая роль принадлежит нуклеотидам, занимающим третью позицию кодона. Они испытывают наименьшее селективное давление со стороны эволюционного отбора на уровне белковых структур. В то же время они сильно коррели-рованы с первыми двумя нуклеотидами кодона (селекция кодонов), что связано с давлением отбора на уровне трансляции (см.гл.2). Обнаружена также корреляция третьего нуклеотида кодона с нуклеотидами 3'-соседнего кодона.
Как уже говорилось, в качестве методов распознавания универсального типа были предложены подходы, предусматривающие вычисление функций-индикаторов кодирующих областей исходя из частот встречаемости мононуклеотидов в трех рамках, рассчитанных внутри окна наблюдения W (Shulman et al.,1981; Staden, 1984a; Bibb et al., 1984; Almagor,1985). Два из этих методов (Bibb и Almagor) предусматривают выявление кодирующей области и рамки считывания по различиям в позиционных частотах мононуклеотидов. В частности, Алмагор предполагал, что частоты нуклеотидов в третьей позиции более чем в двух других уклоняются от равновероятного распределения. Бибб с соавт. показал, что GC содержание (частоты G и С нуклеотидов) в третьей позиции кодона сильнее, чем в двух Других позициях, скоррелировано с GC содержанием кодирующей области в Целом. Работоспособность этих методов была подтверждена примерами (для генов E.coli, митохондрий дрожжей).
Более детально закономерности в распределении частот нуклеотидов в третьем положении кодона были исследованы позднее на выборках генов
Е.coli (Бородовский и др.,1988). Здесь было показано, что частоты нуклеотидов в этой позиции статистически значимо изменяются в зависимости от типа нуклеотида, расположенного с 3' стороны от кодона. Кроме того, характер изменений неодинаков в сильно и слабо экспрессируемых генах. Данные о контекстно зависимых частотах нуклеотидов в третьем положении кодона, полученные на обучающей выборке, могут быть использованы для локализации кодирующих областей.
Идеология метода так же, как и в п.3.3, связана с байесовским подходом. Задача состоит в том, чтобы определить вероятности принадлежности фрагмента заданного вида - (а,,а2, ... a3nt3), а,= Т, С, A, G -кодирующей или некодирующей областям.
Допустим, что нам известны частоты нуклеотидов в третьем положении кодонов ¦¦ fk(a), a=T,C,A,G - и частоты нуклеотидов в некодирующея области - f„(a), a=T,C,A,G (которые не зависят от позиции). Тогда, если рассматриваемый фрагмент Z является кодирующим, то вероятность того, что он считывается в 1-й, 2-й или в 3-й рамке, равна
P. =f^a3)‘fk(a6)-...-fk(a3n),
Р2 =fk(a4),fk(a7)-...-flc(a3n+1), (3.4)
Рз =ft(a5),fk(ae)*...-fk(a3n,2).
С другой стороны, вероятность встретить фрагмент Z в некодирующей области равна
P. =fn(a5),fn(ae)'---’f„(a3n*2b (3-5)
Теперь нетрудно определить искомую вероятность того, что фрагмент Z принадлежит кодирующей области и что при этом первый нуклеотид фрагмента находится в определенной (i-ft, i =1,2,3) позиции кодона
Pi - Р/^Р.+Ол-^эРз +Q„P„). (3.6)
Здесь Qn - доля некодирующих областей в рассматриваемом геноме.
При отсутствии априорной информации обычно полагается Q,=1/2,
Qn=l/6.
Только что изложенный подход обобщается на те случаи, когда в качестве позиционных частот f„(a) - частот нуклеотидов в третьем положении кодона - используются так называемые контекстные (условные) частоты. Поясним это понятие. Контекстной частотой третьего нуклеотида при задании одного нуклеотида с 3' стороны f(с|b) является частота встречаемости нуклеотида с при условии, что вторым нуклеотидом кодона является Ь. Контекстная частота f(с|ab) определяется при условии, что
нуклеотиды а и b занимают первую и вторую позиции кодона соответственно. Наконец, f(c|ab*d) есть частота встречаемости с при условии, что первые две позиции кодона занимают нуклеотиды а и Ь, ив первой позиции Б'-соседнего кодона находится нуклеотид типа d (звездочка соответствует позиции, . в которой находится нуклеотид с). Все введенные контекстные частоты могут быть определены исходя из позиционных частот моно-, ди-, три1 и тетрануклеотидов (N(a), N(ab), N(abc), N(abcd)) на обучающей выборке кодирующих областей, а именно:
fkl(c) = f(c|b) = N(bc)/N(c),
fk2(c) = f (с | ab) = N(abc)/N(ab), (3.7)
fk3(c) = f(c|ab*d) = N(abcd)/S N(abnd).
n
Определенные здесь частоты flt(a), i=l,2,3 могут быть непосредственно подставлены в формулу (3.4) вместо fk(a), которые логично
переобозначить как fk0(a). Значения р,, i = 1,2,3 для скользящего

Предыдущая << 1 .. 38 39 40 41 42 43 < 44 > 45 46 47 48 49 50 .. 119 >> Следующая