Научная литература
booksshare.net -> Добавить материал -> Биология -> Соловьев В.В. -> "Использование ЭВМ в молекулярной биологии. Введение в теорию генетических текстов" -> 14

Использование ЭВМ в молекулярной биологии. Введение в теорию генетических текстов - Соловьев В.В.

Соловьев В.В. Использование ЭВМ в молекулярной биологии. Введение в теорию генетических текстов — Новосибирск, 1988. — 93 c.
Скачать (прямая ссылка): ispolzovanieevmvmolekulyarnoy1988.djvu
Предыдущая << 1 .. 8 9 10 11 12 13 < 14 > 15 16 17 18 19 20 .. 30 >> Следующая

Я
W(4<**)“.? 7 (4)
где Pij - частота встречаемости пары следующих друг за другом букв A i A j в ГТ.
При учете зависшости буквы в тексте от двух предыдущих получим энтропию
Нз ~ Ч<,оС2 (vt-i)- Н (се, H(cCt сСг) , (5)
где Н( сс1 се г cij ) _ энтропия троек букв в тексте.
42
Учитывая все более дальние связи букв, постепенно уменьшаем энтропию и в пределе получаем н«,= dim Н*. ,(<*„)
21 —? оо 7 /V~J /|f/*
Величина Б = I - Нто / Н0 назнвается избыточностью (или вырозденностью) текста, где Н0= loan -максимальная энтропия одной буквы алфавита мощности л/ (достигается при равных частотах букв в тексте). Другими словами, Н0 - наибольшая информация, которая может содержаться в одной букве алфавита мощности ть , а Н «, - максимальная информация, которую можно извлечь в среднем из одной буквы данного текста.
Избыточность текста R показнвает, насколько выбор следующей буквы текста зависит от самой структуры текста, т.е. насколько он неслучаен.
ГТ длины N может содержать наибольшее количество информации Н „с • N , То же количество информации может содержать текст с взаимно независимыми и равновероятными буквами, но меньшей длины jV, = (Н /Н 0 ) • N . Следовательно, в ГТ условно можно считать избыточными N - ЯЛ = N ? (I - H^/Hq) = = Я • R букв /ИЗ/. В кодирующих последовательностях избыточность может быть обусловлена вырозденностью генетического кода. По оценкам Волькеншгейна /ИЗ/ избыточность ГТ за счет этого фактора- J? =0,28. Действительно, Н0 = lag 4м =
=2 • N - максимальная энтропия нуклеотидного текста длины N . Для кодируемого им полипептидного текста длиной N/3 Hj = los 20 W = 1,44 -N и Bi = I - Hi / H = 0,28.
Учет возможности замены некоторых аминокислот функционально близкими им без изменения свойств белка и учет возможности замены белков, несущих одинаковую функцию, дает оценку избыточности R =0,72 /ИЗ/ (для сравнения: избыточность английского языка R =0,60 /112/). Это значит, что как минимум 72 % кодирующей длины генома условно можно считать не несущим информации о первичной последовательности белков. Такая большая избыточность (или вырозденность), как будет видно далее, связана с тем, что в данной области генома, кроме информации о белке, содержится другая разнообразная ГИ (см.
3.2.3.).
3.2.3. Синонимия генетической информации. Избыточность ГТ возникает вследствие такого свойства различных его элементов,
43
как синонимия, т.е. взаимозаменяемость. Имеются синонимия различных кодонов одной кодовой серии, частичная синонимия некоторых аминокислот в силу близости их физико-химических свойств и т.д.
Синонимия важна для возникновения взаимной совместимости различных ГС в случаях их перекрнвания внутри одного ГТ. Известно множество таких перекрываний. Налример, это пересечение цромотора и оператора в ^w-опероне /34/.
Возможно кодирование нескольких различных ГС одним участком ГТ. Например, в кодирующей области генов, кроме информации о первичной структуре белков, располагается также информация о вторичной структуре матричной РНК, о различных сайтах рестрикции, рекомбинации, элонгации трансляции и т.д. Кроме того, в этом районе периодически располагаются сайты позивдонирввания нуклеосом /44/. Взаимная совместимость всех этих ГС возможна только в силу синонимии их структурных компонент.
Оценки информационной совместимости перекрывающихся генов даны в работе Смита и Ватермана /114/. Для одного кодона возможно шесть альтернативных рамок считывания: три рамки на одной цепи, получаемые цри сдвиге на одну позицию, и три - на цротивоположной цепи ДНК ( табл. 2). Априорная вероятность встретить в альтернативной рамке под номером 2 (см. табл. 2) кодон, принадлежащий j -й серии, цри условии, что в 1-й рамке находится кодон i-й серии, вычисляется следующим образом:
Чз = ni/i
/п.
(6)
Здесь л,-// - число кодонов типа ?ё1.63х, , принадлежащих j—й серии, если кодон S1 ёг цринадлежит ь-й серии (ле [ A, U, Q, С'}); - общее число триплетов типа ёгёз-х- . При этом предполагается, что соседние кодоны в главной цепи взаимно независимы. Аналогично вычисляются условные вероятности для всех других альтернативных рамок считывания. Затем по формулам (2) и (3) можно вычислить условные энтропии для кодонов, кодирующих второй белок и (по отношению. к кодонам первого белка уз ).
44
В табл. 2 цриведены условные энтропии для всех шести рамок считывания. Оказывается, что наибольшей энтропией обладает 5-я рамка считывания, расположенная на цротивоположной цепи ДНК. Это означает, что в этой рамке может кодироваться белок, имеющий не более 3,424 бита информации на аминокислоту. Наиболее строгие ограничения накладываются на 6-ю рамку считывания: очень мало информации (0,821 бит на аминокислоту) может иметь белок, кодируемый в этой рамке.
Таблица 2 Альтернативные рамки считывания /114/
Номер рамки Цепь Ш Пример расположения кодонов
I Прямая . [4tfG|cc • Н = 4,218
2 US С 2,144
3 цепь 6 с с 2,144
4 Обратная С АС 1,532
5 цепь 6 С А 3,424
6 & G С 0,821
Н = i os 21 = 4,218 битов
3.2.4. Взаимосвязь элементов в генетических текстах. В работах Липмана и соавт. /109; 115/ измерение избыточности ГТ использовалось для оценки таких статистических закономерностей, как неоднородность использования и упорядоченность расположения нуклеотидов в генах.
Предыдущая << 1 .. 8 9 10 11 12 13 < 14 > 15 16 17 18 19 20 .. 30 >> Следующая

Реклама

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed

Есть, чем поделиться? Отправьте
материал
нам
Авторские права © 2009 BooksShare.
Все права защищены.
Rambler's Top100

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed