Научная литература
booksshare.net -> Добавить материал -> Биология -> Александров А.А. -> "Компьютерный анализ генетических текстов" -> 37

Компьютерный анализ генетических текстов - Александров А.А.

Александров А.А., Александров Н.Н., Бородовский М.Ю. Компьютерный анализ генетических текстов — М.:Наука , 1990. — 267 c.
ISBN 5-02-004691-4
Скачать (прямая ссылка): komputerniyanalizgeneticheskihtextov1990.djv
Предыдущая << 1 .. 31 32 33 34 35 36 < 37 > 38 39 40 41 42 43 .. 119 >> Следующая

Используя марковские модели второго, третьего и т.д. порядков можно определить и соответствующие величины удельных энтропий -S2,S3 и т.д. Эти характеристики отражают корреляции в три-, тетра-и т.д. нуклеотидах. Как можно использовать эти данные? рассмотрим последовательность приращений D, = Smax - S, D2 = S -S', D3 = S1 - S2 и т.д. Значение Dk пропорционально доле информации, которая содержится в 1-граммах порядка к относительно
i-грамм большего порядка. Анализ значений D,, D2, и т.д. позволяет обосновать выбор марковской модели данного генетического текста, которая затем может быть использована, например, в компьютерных процедурах распознавания (см. гл. 3,4).
2.7.ЗАКЛЮЧЕНИЕ
Исследование генетических текстов методами теории вероятностей и математической статистики уже сегодня привело к установлению большого количества закономерностей. Некоторые из них - закономерности встречаемости ди- и тринуклеотидов - послужили основой для углубления представлении о физико-химическом строении ДНК, деталях механизма переноса генетической информации и т.д. Другие обнаруженные закономерности, отраженные в значениях энтропии и избыточности текстов ДНК, интересны с точки зрения исследования путей молекулярной эволюции. Статистические особенности, свойственные нуклеотидным последовательностям функциональных областей и отраженные в теоретических (феноменологических) моделях, позволяют создавать компьютерные средства (программы) типа искусственного интеллекта для быстрой разметки генетических текстов на функциональные единицы. Чрезвычайно интересным является вопрос поиска новых возможных молекулярно-генетических систем регуляции. Можно надеяться, что изучение значимых слов и составление словарей окажется полезным для этой области исследований.
Конечно, изложенные в данной главе методы и результаты - это самые первые шаги в изучении статистических закономерностей в генетических текстах. Перспективы развития такого направления весьма обширны. Это связано и со стремительным увеличением числа изучаемых объектов, и с привлечением и созданием новых методов анализа. Главная задача исследователя здесь, по-видимому, состоит б том, чтобы, критически переосмыслив имеющийся опыт, определить совокупность надежно установленных фактов, усовершенствовать критерии корректности постановок задач и интерпретации результатов.
Глава 3. РАСПОЗНАВАНИЕ КОДИРУЮЩИХ ОБЛАСТЕЙ В НУКЛЕОТИДНЫХ ПОСЛЕДОВАТЕЛЬНОСТЯХ
3.1. ВВЕДЕНИЕ
Транслируемые области прокариотического и эукариотического типа.
Понятие транслируемой (белок-кодирующей) области ДНК возникло в результате уточнения и углубления представлений о единице наследственной информации - гене. Сегодня считается, что понятия гена и транслируемой области тождественны, если речь идет о прокариотах (Льюин, 1987). В случае эукариот (и архебактерий) часть генов имеет прерывистую структуру и включает в себя как транслируемые, так и нетранслиру-емые области. Мы не будем пояснять детали механизма белкового синтеза в про- и эукариотах. Заметим лишь следующее.
В прокариотах нуклеотидная последовательность транслируемой области начинается с инициирующего кодона (ATG, реже GTG и очень редко других триплетов) и заканчивается одним из терминирующих кодонов: TGA, ТАА или TAG. Инициирующему кодону предшествует так называемый инициирующий сигнал, обеспечивающий правильное прикрепление матричной РНК к рибосоме. Эта сигнальная последовательность длиной 6-8 нуклеотидов состоит преимущественно из А и G и узнается частично комплементарной ей последовательностью 16S-pPHK 30S субъединицы. Инициирующий и терминирующий кодоны лежат в одной "рамке считывания", т.е. число нуклеотидов в разделяющем их фрагменте кратно трем. Каждый из последовательно считываемых за инициирующим кодоном триплетов нуклеотидов (вплоть до терминирующего) определяет, согласно таблице генетического кода, очередной аминокислотный остаток синтезируемой полипептидной цепи.
В эукариотах (и архебактериях) большая часть областей ДНК, кодирующих одну полипептидную цепь, имеет прерывистую структуру. За первым кодирующим фрагментом, который всегда начинается с ATG, следует некодирующий участок - интрон. Далее кодирующие и некодирующие участки чередуются и последний кодирующий фрагмент заканчивается терминирующим кодоном. При зтом выполняются следующие условия: 1) на границе кодирующего и некодирующего участка имеется каноническая, хотя и довольно короткая последовательность, а именно - интрон начинается с динуклеотида GT и заканчивается динуклеотидом AG; 2) если вырезать кодирующие фрагменты и состыковать их, то полученный нуклеотидный текст будет иметь вид непрерывной кодирующей области (подобно описанной выше в случае прокариот).
Транслируемые области наиболее плотно размещены в вирусах и фа-
гах. Например, в 60 генах фага лямбда достаточно часто наблюдается сопряжение терминирующего кодона предыдущего гена с инициирующим кодоном последующего гена -TGATG-. В геноме фага ФХ1?4 были впервые обнаружены перекрывающиеся кодирующие области. Здесь в разных рамках счи-тыванияодного и того же нуклеотидного текста содержится информация о двух различных полипептидах, которые были идентифицированы in vivo. Хотя подобные случаи наблюдались в митохондриях и у млекопитающих, в целом процент кодирующих областей в составе генома при. переходе от низших форм к высшим резко уменьшается.
Предыдущая << 1 .. 31 32 33 34 35 36 < 37 > 38 39 40 41 42 43 .. 119 >> Следующая

Реклама

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed

Есть, чем поделиться? Отправьте
материал
нам
Авторские права © 2009 BooksShare.
Все права защищены.
Rambler's Top100

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed