Научная литература
booksshare.net -> Добавить материал -> Биология -> Александров А.А. -> "Компьютерный анализ генетических текстов" -> 46

Компьютерный анализ генетических текстов - Александров А.А.

Александров А.А., Александров Н.Н., Бородовский М.Ю. Компьютерный анализ генетических текстов — М.:Наука , 1990. — 267 c.
ISBN 5-02-004691-4
Скачать (прямая ссылка): komputerniyanalizgeneticheskihtextov1990.djv
Предыдущая << 1 .. 40 41 42 43 44 45 < 46 > 47 48 49 50 51 52 .. 119 >> Следующая

Таблица 3.7 Эмпирические вероятности кодирования для неидентифицированных ОРС
Последовательность | От N | До N | Вероятность
ЕСАСЕЕ 186 893 0,690
ЕСАТРХ 177 566 0,493
ECFRDB 42 434 0,870
ECFRDB 448 804 0,929
ECLAMBA 1682 2074 0,785
ЕСОМРА 172 666 0,636
ЕСРНОЕ 1572 1970 0,469
ECPR6K 1486 1938 0,368
ECRRNBZ 275 1141 0,525
Для решения второго вопроса можно использовать функции плотности dki(P|K), i>0. Определим эмпирическую вероятность кодирования для фрагмента Z следующим образом:
v (кiz) = ---------d^(plK)------
V‘U|^ dki(P|K)+dki (Р | Н) •
Для отдельно взятой ОРС длины L, разбитой на непересекающиеся Фрагменты ZJtj=l,______N, можно определить величину
N
V,(L) = Д V,(K|Zj) .
Величина V,(L) характеризует вероятность наличия кодирующих свойств у открытой рамки. Значения V3(L) для известных кодирующих областей представлены в табл.3.6. При этом использовались фрагменты Zj длиной 45 нуклеотидов.
Видно, что во всех случаях значения вероятности кодирования превосходят величину 0,5, которая принимается в качестве пороговой при рассмотрении неидентифицированных ОРС.
Нуклеотидные последовательности ЕСАСЕЕ, ЕСАТРХ, ECFRDB, ЕСОМРА ЕСРАР1, ECPHOE, ECPR6K, ECRRNBZ (обозначения приводятся согласно опи санию базы данных EMBL) имеют открытые рамки с неизвестной функцией. Для этих ОРС были определены значения V3(L), которые приводятся ь табл. 3.7.
Величины, превосходящие 0,5, позволяют предсказывать белок-кодиру-щие свойства для соответствующих ОРС. Диапазон 0,4-0,5 является полосой неопределенности. Если же V3(L) < 0,4, то делается вывод, что данная ОРС не обладает кодирующими свойствами.
3.4.ИСПОЛЬЗОВАНИЕ ПРЕДСТАВЛЕНИЙ КОДИРУЮЩИХ ОБЛАСТЕЙ МАРКОВСКИМИ ЦЕПЯМИ
Модели двух классов объектов. В гл. 2 при обсуждении общей задачи статистического моделирования нуклеотидных последовательностей было отмечено, что генетический текст нестационарен и что не существует единой модели, одинаково хорошо описывающей первичную структуру генома на всем его протяжении. В связи с этим для описания кодирующих и некодирующих областей ДНК были предложены марковские модели разного типа. Представления, изложенные в гл.2, могут быть использованы в методе распознавания кодирующих областей. На первом этапе производится 1-граммный анализ выборок известных кодирующих и некодирующих областей (обучающих выборок). В результате этого анализа определяются переходные вероятности неоднородной и однородной цепей Маркова, которые служат моделями кодирующих и некодирующих областей соответственно. Далее задача заключается в том, чтобы разметить предъявленный генетический текст на чередующиеся зоны, одни из которых статистически наиболее близки к модели кодирующей области, а другие модели некодирующей области.
Наиболее простой способ реализации этой процедуры связан, как и п.3.3, с использованием движущегося окна и последовательного принятия решений о принадлежности фрагментов первичной структуры ДНК (в просвете окна) к классу кодирующих или некодирующих. Недостатком такого способа, как и других методов распознавания по содержанию, являются затруднения при анализе фрагментов, содержащих внутри себя граничную позицию, т.е. частично принадлежащих к тому и другому классу одновремен-
но, что в итоге приводит к недостаточно точному определению положения границ.
Марковский алгоритм распознавания. Вернемся к нашему основному Объекту - фрагменту последовательности ДНК - Z, состоящему из п нуклеотидов, т.е. Z = а,,а2.........ап, а,=Т,С,А,С. Напомним, что выбрано
п, кратное трем. Речь по-прежнему будет идти о вероятностях Р{К|Z) и P(N|Z) того, что участок Z принадлежит кодирующей и некодирующей области соответственно. Нам удобно повторить уже рассматривавшиеся этапы вывода байесовского алгоритма, которые при использовании марковских моделей приобретают большую степень общности.
Как мы уже знаем, величину Р(К|Z) можно представить как сумму трех величин - P(K,|Z), P(K2|Z), P(K3|Z), которые есть вероятности
того, что фрагмент Z принадлежит кодирующей области и в то же время нуклеотид ai занимает i-ю позицию некоторого кодона. Вычисление вероятностей P(N|Z) и P(KjZ), i=l,2,3 можно выполнить, зная параметры математических моделей кодирующих и некодирующих областей.
Модель некодирующей области задается однородной марковской цепью первого порядка. Вектор начального распределения вероятностей (согласно табл.2.2,гл.2) имеет четыре компоненты: Р(Т)=0,231, Р(С)=0,259,
Р(А)=0,261, Р(G)=0,248. Матрица переходных вероятностей для этой цепи приведена в табл.2.3 гл.2. В качестве модели кодирующей области могут быть использованы неоднородные марковские цепи трех разных порядков - г=0,1,2. Чем больше г, тем ближе статистические характеристики модели к реальной последовательности. Однако за это приходится платить введением дополнительных параметров. Поэтому в зависимости от ситуации может быть выбрана любая модель. Ниже мы приводим результаты для всех трех.
Предыдущая << 1 .. 40 41 42 43 44 45 < 46 > 47 48 49 50 51 52 .. 119 >> Следующая

Реклама

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed

Есть, чем поделиться? Отправьте
материал
нам
Авторские права © 2009 BooksShare.
Все права защищены.
Rambler's Top100

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed