Научная литература
booksshare.net -> Добавить материал -> Биология -> Александров А.А. -> "Компьютерный анализ генетических текстов" -> 35

Компьютерный анализ генетических текстов - Александров А.А.

Александров А.А., Александров Н.Н., Бородовский М.Ю. Компьютерный анализ генетических текстов — М.:Наука , 1990. — 267 c.
ISBN 5-02-004691-4
Скачать (прямая ссылка): komputerniyanalizgeneticheskihtextov1990.djv
Предыдущая << 1 .. 29 30 31 32 33 34 < 35 > 36 37 38 39 40 41 .. 119 >> Следующая

Текстовая запись первичной структуры ДНК, как уже говорилось, вызывает невольную ассоциацию с языковым, лингвистическим сообщением.
В этой связи возникает вопрос, могут ли названные понятия теории передачи сообщений, подобно ее методу 1-граммного анализа, оказаться полезными для изучения генетических текстов. По-видимому, ясно, что шенноновские информация и энтропия не эквивалентны по смыслу понятиям генетической информации и физической энтропии. Введем формальные определения. Рассмотрим эксперимент с п возможными исходами, имеющими вероятности осуществления Р, = 1, 2,...,п. Информация, которую приносит сообщение о том, что реализовался определенный исход i, полагается равной
I = -logjP,. (2.18)
В частности, сообщение о выпадении орла или решки несет единичную информацию.
Энтропия характеризует неопределенность в исходе эксперимента в целом. По определению
S = <I> = - Е Pilog2P1, (2.19)
т.е. величина S тем больше, чем меньше априорная возможность предсказания исхода эксперимента. S максимальна, если нет исходов более вероятных, чем другие и, таким образом, все имеют одинаковую вероятность 1/п. Тогда Smax = log2n.
Случай символьных последовательностей. Представим себе алфавит из М знаков и последовательность из них длины N. Прежде всего, каждый из символов можно интерпретировать как результат очередного эксперимента по выбору символа. Определив вероятности выпадения символов в эксперименте (Р,), можно вычислить величины Г и S*, приходящиеся на одну позицию текста по формулам (2.18), (2.19).
С другой стороны, можно говорить о последовательности в целом как об исходе эксперимента по генерации текста из N символов. Это позволяет ввести величины IN и SN, характеризующие информацию и энтропию, "сложного" эксперимента, включающего N "простых”. Ясно, что в случае независимости "простых" экспериментов IN = Si’,, так как PN = П Р,.
Если текст состоит из зависимых символов и представляется марков-
ской цепью, то информация на один символ (и энтропия) уменьшаются. Например, для цепи первого порядка с известными переходными вероятностями Pljt i,j=l,n энтропия на символ
S1 = - ЕР,*Е Ри*1о§2Р1Г (2.20)
Подобные формулы существуют для моделей текстов в виде марковских цепей более высоких порядков.
Кроме энтропии, удобно ввести показатель избыточности текста
R = 1------1— • (2.21)
шах
Чем ближе величина S к максимальной, соответствующей полностью случайному тексту, тем R ближе к нулю, и наоборот, чем более коррелировали символы и "предсказуем" текст, чем легче восстанавливать в нем пропуски, тем меньше S и тем ближе R к 1. В текстах на современных языках - русском, английском, немецком - величина R составляет около 0,7.
Энтропия и избыточность нуклеотидных последовательностей. Фактически, энтропия последовательности ДНК является компактной характеристикой, отражающей степень сходства последовательности нуклеотидов с последовательностью моделируемой серией равновероятных исходов. При вычислении энтропии некоторой, последовательности значения частот употребления символов рассчитываются по этой же последовательности. Это приводит к некоторым примечательным выводам.
Для бесконечной последовательности, состоящей из одинаковых символов, например ТТ...Т..., имеем Рх=1, Р(=0, i=A,C,G. Значит
S*=G и, кроме того, IN=0, т.е. эта последовательность имеет нулевую шенноновскую информацию.
Используя результаты, полученные для ДНК E.coli в предыдущем разделе, мы обнаруживаем, что кодирующие и некодирующие последовательности ДНК имеют разную энтропию (см.табл. 2.8)
Таблица 2.8
Значения удельной энтропии и избыточности ДНК E.coli, рассчитанные по разным моделям
Тип ДНК | S0 1 S’ | Spl | R° 23
?0
•о
Области 1,9975 1,9769 1,7787 1,3* lo-3 1,2*10'2 1,1'Ю’1
кодирующие 1,9978 1,9878 1,1*10-3 6,1-Ю-3
некодирующие
Здесь верхние индексы 0 и 1 обозначают величины, вычисленные по однородным марковским цепям нулевого и первого порядка, а индекс pi, соответственно - по позиционной марковской модели первого порядка (см. Бородовский и др.,1986а).
Приведенные данные показывают, что кодирующие области характеризуются большей избыточностью, и, следовательно, большей коррелиро-ванностью расположенных рядом нуклеотидов по сравнению с некодирующими областями. Интересно, что увеличение избыточности как характеристики "ансамбля" текстов означает, что встречаемость текстов с определенными правилами чередования символов будет преобладать над другими. Шенноном было доказано утверждение, что если энтропия текста на символ раЕна S, то среди фрагментов длины N, выбранных из данного текста, с вероятностью, близкой к единице, встретятся не все 2N,ogM возможных вариантов, а только 2NS различных последовательностей. Применительно к кодирующим областям, где SplKoaiip=l,7787, это означает, что если, например, рассматривать фрагменты длиной 100 нуклеотидов, то разнообразие фрагментов, реально встречающихся в кодирующих областях E.coli в 4,6'106 раз меньше по сравнению с 4,0° возможными последовательностями. Таким образом, в среднем только одна из 4,6‘Ю6 случайных нуклеотидных последовательностей имеет такую же статистическую структуру, как и реальная кодирующая область.
Предыдущая << 1 .. 29 30 31 32 33 34 < 35 > 36 37 38 39 40 41 .. 119 >> Следующая

Реклама

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed

Есть, чем поделиться? Отправьте
материал
нам
Авторские права © 2009 BooksShare.
Все права защищены.
Rambler's Top100

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed