Научная литература
booksshare.net -> Добавить материал -> Биология -> Соловьев В.В. -> "Использование ЭВМ в молекулярной биологии. Введение в теорию генетических текстов" -> 17

Использование ЭВМ в молекулярной биологии. Введение в теорию генетических текстов - Соловьев В.В.

Соловьев В.В. Использование ЭВМ в молекулярной биологии. Введение в теорию генетических текстов — Новосибирск, 1988. — 93 c.
Скачать (прямая ссылка): ispolzovanieevmvmolekulyarnoy1988.djvu
Предыдущая << 1 .. 11 12 13 14 15 16 < 17 > 18 19 20 21 22 23 .. 30 >> Следующая

Трамантано и др. /128/ определили информационную ценность
50
V-кодонов другим способом:
v = X FS P. d ? • /л • j
(H)
Здесь j - позиция в кодоне; nj - число возможных мутаций (кроме нонсенсов) по этой позиции; Pi - относительные частоты мутахщй; d- - различия в гидрофобностй аминокислот, кодируемых исходным и полученным в результате мутации кодонами.
Ряд авторов использовали информационную ценность как меру для поиска кодирующих областей в генах /128/.
3*2.9. Сложность генетических текстов. Понятие сложности ГТ тесно связано с теорией шформавди /ИЗ/. Эбелииг и Хш« менсс-Монтано /129/, основываясь на концепции Колмогорова о алгоритмической сложности текста и на теории формального языка и формальных грамматик, оценивали сложность шшшуклеотид-ных и полипепвддных текстов.
По Колмогорову, случайной называется последовательность р- С л i, л 2 у); A i е ( А1, А „ ) , если не существует ее более короткого представления <^ = (Ad,... ,А^); ;W,заданного в том же алфавите и называемого программой, которая позволяет сконструировать последовательность р . Любая регулярная последовательность имеет более короткую программу. Чем более регулярна последовательность, тем более короткой программой можно ее цредставитъ. Например, последовательность AT8AT6ATG можно представить в ввде црограммы (Atg )}.
Тогда алгоритмическая сложность последовательности определяется как К (р) ~ mi л С (f) ~ длина наименьшей из программ , реализующих последовательность р по отношению в заданному алгоритму построения этих программ.
С другой стороны, в теории формального языка /129/ дай последовательности р , составленной из букв алфавита X, вводится грамматика с-= {N,jС, Р} - множество трех множеств.
Здесь jv - дополнительный алфавит символов, заменяющих различные подпоследовательности ц, в тексте о ; Р - множество правил этой замены (множество подстановок) вида 6 -+ ^ , где dew * а U Nj . Например, для последовательности
ATGAATGG6T&ATQG& можно построить следующую грамматику:
51
s— 6/6zTGdz> 4,-ATG; 6гГ- $1 c&; seW - Начальный символ соответствует исходному тексту.
Аналогично алгоритмической сложности авторы вводят грамматическую сложность текстов. Сложность одной подстановки(т.е. одного грамматического правила из множества Р, включая и начальную подстановку) определяется как ?(» - длина заменяемой при подстановке подпоследовательности. Сложность последовательности относительно данной грамматики определяется как суша:
КС/о) = Е К(6(12)
1 6е.Ы
Тогда грамматическая сложность определяется как наименьшая сложность грамматик, соответствующих тексту р : К&СР) =
= /77777 К (Р)-
Для того чтобы характеризовать уровень сжатия последовательности, вводится понятие грамматической избыточности:
1- KgCPVCCP)- (13)
Кроме того, определяется число производящих правил L , которые включает множество Р данной грамматики. Так, для приведенного выше примера Rc - 0,25 , a lg = 4.
Авторы /129/ считают, что грамматическая сложность может быть рассмотрена как алгоритмическая сложность Колмогорова доя специального грамматического алгоритма. С другой стороны, грамматическая сложность есть обобщение понятия энтропии Шеннона.
Все перечисленные меры ( KG(p), В6 1&) были вычислены для 25 последовательностей ДНК, РНК и белков, принадлежащих различным таксонам. В частности, для цитохрома С оказалось, что грамматическая избыточность в0 ж число производящих правил L6 возрастает при движении по эволюционной "лестнице" от грибов и насекомых к человеку. Это говорит о возрастании количества внутригенных повторов в* процессе эволюции /129/.
52
3.3. Методы поиска а анализа повторов
Одним из интереснейших свойств ГТ является наличие
в них большого числа повторов различного типа (цримеры этих повторов см. на рас. 2). Если между участками повторов имеются нарушения гомологии или комплементарности, то такой повтор назнвается несовершенным, в цротивном случае - совершенным. Метода выявления повторов в последовательностях и между подпоследовательностями на основе оценок их статистической значимости обычно называют методами контекстного анализа. Если повторы не обусловлены статистической случайностью, их наличие свидетельствует о функциональной значимости этих повторов или об оцределенном пути их возникновения (нацример, они могут быть следами душшкационных событий) /130 - 132/.
3.3.1. Анализ совершенных повторов. Статистические оценки ожидаемого числа перерывающихся или расположенных раздельно совершенных повторов в случайной последовательности, порожденной схемой испытаний Бернулли, изложены в работе Вахтера /133/. Ожидаемое число полностью совпадающих участков длины в , встречающихся л раз в некоторой случайной последовательности:
Здесь н = Я- & + 4 , где Л - длина последовательности;
6* и Pi , Рг , Рз, р4- числа и частоты встречаемости нуклеотидов А, Т,6, С соответственно.
На основе этих оценок цроведен поиск совершенных повторов в ряде генов, кодирующих глобулщшые белки и рРНК /133/. Оказалось, что в этих генах наблюдаемое число прямых повторов близко к ожидаемому для случайных последовательностей либо незначительно цревосходит его.
Предыдущая << 1 .. 11 12 13 14 15 16 < 17 > 18 19 20 21 22 23 .. 30 >> Следующая

Реклама

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed

Есть, чем поделиться? Отправьте
материал
нам
Авторские права © 2009 BooksShare.
Все права защищены.
Rambler's Top100

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed