Научная литература
booksshare.net -> Добавить материал -> Биология -> Александров А.А. -> "Компьютерный анализ генетических текстов" -> 41

Компьютерный анализ генетических текстов - Александров А.А.

Александров А.А., Александров Н.Н., Бородовский М.Ю. Компьютерный анализ генетических текстов — М.:Наука , 1990. — 267 c.
ISBN 5-02-004691-4
Скачать (прямая ссылка): komputerniyanalizgeneticheskihtextov1990.djv
Предыдущая << 1 .. 35 36 37 38 39 40 < 41 > 42 43 44 45 46 47 .. 119 >> Следующая

о надежности предсказания. Наконец, Стаден обнаружил (Staden, 1985), что метод Шефферда хорошо работает на модельной кодирующей последовательности, построенной только с ограничением на средний аминокислотный состав белка (см.п.З.1). Это означает, что метод Шефферда слабо чувствителен к отсутствию селекции кодонов и отбирает кодирующую рамку, в которой проявляется типичный аминокислотный состав, кодируемый преимущественно кодонами типа RNY. Следовательно, вопрос о первоисточнике эффективности метода Шефферда - будь то структура архаического или современного генетического кода - остается открытым.
Метод Фиккетта. Следующим шагом в развитии методов распознавания универсального типа явилась работа Фиккетта (Fickett,1982), в которой был предложен способ вычисления количественного критерия для ответа на вопрос, являтся ли обнаруженная в нуклеотидном тексте ОРС истинной кодирующей областью. Здесь впервые были исследованы как выборки кодирующих, так и выборки некодирующих областей ДНК различных организмов. Первая из них содержала 230 тыс. нуклеотидов, а вторая - 159 тыс. нуклеотидов. Основная идея близка к методу линейного дискриминантного анализа и заключается в поиске таких, достаточно простых, признаков рассматриваемых объектов (последовательностей ДНК), разбитых на два
класса, по которым можно было бы построить линейную разделяющую функцию, пригодную для любых таксономических групп. Было показано, что в кодирующих областях присутствуют автокорреляционные закономерности в распределении нуклеотидов. Например (см. рис.3.3), в кодирующих областях число нуклеотидов, разделяющих два тимина, с гораздо большей
Sp
О4'
Рис. 3.3. График автокорреляций встречаемости тимина
а - для 321 кодирующих; б - 249 некодирующих фрагментов длиной более 200 нуклеотидов из БД "GenBank"
вероятностью будет равно 2+Зп, п=1,2,.......... чем Зп или 1+Зп. То же са-
мое выполняется и для других типов нуклеотидов.
Можно показать, что это наблюдение непосредственно указывает на то, что в кодирующих областях частоты нуклеотидов в разных позициях кодона неодинаковы. Пусть вероятности появления, например тимина, в разных позициях кодона равны Р,,Р2,Р3. Тогда ожидаемая частота встречаемости дбус тиминов, разнесенных на (2+Зп) оснований, будет равна Р,2+Р22+Р32. В случаях, когда расстояние между тиминами Зп и 1+Зп, ожидаемые частоты встречаемости - Р,Р2+Р2Р3+Р3Р, и Р^+Р^+Р^
соответственно, причем эти две величины равны друг другу. Отражение этого факта нетрудно заметить на рис.3.4, где периодические выбросы разделены парами близких точек.
Далее можно показать, что Pj2+P22+P32 > Р,Р2+Р2Р3+Р3Р, и знак равенства имеет место только при Р,=Р2=Р3. Таким образом, исследование частот разнесенных динуклеотидов позволяет установить позиционные частотные неравномерности, и рис. 3.3 свидетельствует о том, что в кодирующих областях позиционные частоты нуклеотидов различны в трех позициях кодона и что в некодирующих областях позиционные частотные различия отсутствуют.
Поставив перед собой цель выбрать наиболее простые признаки, Фик-кетт остановился на следующих восьми признаках - четырех позиционных параметрах Т , Ср, Ар и Gp и четырех частотах мононуклеотидов
Tf, Cf, Af и Gf. Вычисление позиционных параметров, например Т , производится следующим образом.
Пусть Т, - число тиминов в позициях 1,4,7.............,Зп-2; Т2 -число
тиминов в позициях 2,5,8,...., Зп-1; Т3 - число тиминов в позициях
3,6,9,----,3п рассматриваемой ОРС. Тогда
шах (Т,,Т2,Т3)
Тр = min (Т,,Т2,Т3) + 1
Достоинство такого определения позиционных параметров в том, чтг все позиции кодона здесь равноправны и величина Тр характеризует лишь факт различия позиционных частот. Кроме того, было показано, чтс величины позиционных параметров оказались независящими от особенностей правил селекции кодонов, свойственных различным организмам.
Частотные параметры Tf, Cf, Af и Gf являются частотами встречаемости мононуклеотидов. Ясно, что, например, Т = Tj+T2+T3. За критерий при идентификации кодирующей области было принято значение функции
F=0,33T+0.18С +0,26А +0.31G +0,14Т +0,12С +0, НА+0,15Gf.
рт Рт Р Р Г ' fT f
На реальных нуклеотидных последовательностях функция F принимает значения от 0,32 до 1,37.Правило принятия решения в зависимости от величины функции F задается в табл. 3.4.
Для проверки предложенного метода было проведено следующее испытание. Каждая из обучающих выборок (кодирующая и некодирующая) была разбита случайным образом на две равных выборки и образованы две пары. Одну из них использовали как обучающую для определения функции F, другую - для контроля. В результате 6% кодирующих фрагментов были ошибочно отнесены к некодирующим, 3% некодирующих - к кодирующим и в 18% случаев определенного ответа не было дано. Необходимо заметить, чтс все зти операции выполнялись с последовательностями длиной не менее 200 нуклеотидов. Для ОРС меньшей длины, например от 100 до 200, количество ошибок возрастало до 13%, а число случаев без определенного ответа до 29%.
Предыдущая << 1 .. 35 36 37 38 39 40 < 41 > 42 43 44 45 46 47 .. 119 >> Следующая

Реклама

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed

Есть, чем поделиться? Отправьте
материал
нам
Авторские права © 2009 BooksShare.
Все права защищены.
Rambler's Top100

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed