booksshare.net -> Добавить материал -> Биология -> Соловьев В.В. -> "Использование ЭВМ в молекулярной биологии. Введение в теорию генетических текстов" -> 13

Использование ЭВМ в молекулярной биологии. Введение в теорию генетических текстов - Соловьев В.В.

Соловьев В.В. Использование ЭВМ в молекулярной биологии. Введение в теорию генетических текстов — Новосибирск, 1988. — 93 c.
Скачать (прямая ссылка): ispolzovanieevmvmolekulyarnoy1988.djvu

Предыдущая << 1 .. 7 8 9 10 11 12 < 13 > 14 15 16 17 18 19 .. 30 >> Следующая

39
Контекстное исследование проводится на основании набора критериев RI, R2,...,RK, которые вычисляются для реального ГТ (R ) и для случайных последовательностей, соответствующих выбранной модели. Для случайных последовательностей строятся распределения значений критериев В} (j= Г/к). Их вид задается либо аналитическим способом /108/,- либо с помощью генерирования случайных последовательностей /102/. Для кавдого критерия Pj вычисляется его среднее значение Bj для случайных последовательностей. Кроме того, для заданного уровня доверительной вероятности ос (0,05, 0,01 и т.д.) рассчитывается доверительный интервал С Rj > В* ] мя значений критерия В в случайной последовательности, так что P(Bj& ,R2])=<*- вероятность того, что Bj для случайной последовательности не попадает в доверительный интервал.
Тогда если значение какого-либо из критериев полученное для реальной последовательности, не попадает в доверительный интервал, то с вероятностью се молено утверждать, что рассмотренная модель не подходит для адекватного описания реального ГТ. Если же Rjpea/l'(V J=I7k) находится внутри доверительного интервала и близко к Bj , то это значит, что данная модель подходит для описания реального ГТ с точки выбранного набора 1фитериев Bj (j = Г7к) • Такой результат дает основание предполагать, что найденный нами набор правил Р отражает реально существующие закономерности построения ГТ.
В этом случае большое значение имеет минимальный набор правил Pmin , которых оказывается достаточно для получения модельных значений Bj , близких к реальным ДЮ/.
Переходя от простых моделей к более сложным, мы получаем информацию о структуре ГТ и тех закономерностях, которые характерны для них.
3.2. Анализ информационного содержания ГТ
Генетические тексты состоят из генетических сообщений (ГС). ГС - это один или несколько отрезков ГТ, в которых закодирована определенная генетическая информация (ГИ), реализующаяся в процессах функционирования МГСУ.
Формальными вопросами кодирования и передачи информации за-
40
нимается теория информации ДП/. Рассмотрим некоторые приложения этой теории к генетическим текстам.
3.2.1. Понятие об энтропии и тгайотпмятпт- Изложение понятия об энтропии и информации дано в соответствии с книгой Яглома и соавт. "Вероятность и информация" /121/. Обзор современных подходов к исследованию информационного содержания ГТ - в работе Ратнера /5/.
Рассмотрим некоторый опыт уз . Опытом называется некоторая статистическая процедура, после выполнения которой возможно получить несколько альтернативных результатов (исходов). Пусть опыт JZ имеет п исходов Bp Bg,..., В ^ с вероятностями выпадения кавдого исхода Р(В±), р(Бг), р (В то) соответственно. В качестве меры неопределенности исходов опыта р> вводится энтропия Н( р ), которая вычисляется следующим, образом:
(логарифл обычно берется по основанию 2, при этом единицу измерения количества энтропии называют битом).
Видно, что максимальная энтропия (неопределенность) опыта Umax наблюдается при равновероятных исходах j>(A,) = p(?2)=
= ...= р(В„)= l/n} Hmax=hsn. Если же какие-то исходы выпадают чаще, а какие-то реже, то можно цредугадать исход опыта р с большей уверенностью. Соответственно энтропия этого опыта -Ш р ) < Umax •
Рассмотрим другой, вспомогательный опыт ос , имеющий иг-различных исходов Ар Ад, ..., A m с вероятностями их выпадения рсл,),р(Л р(лт )• При получении определенного исхода опыта <*. , например Ар энтропия опыта р , в общем случае, может измениться, если эти два опыта связаны между собой. Энтропия опыта р при условии, что имело место событие Aj, равна
Л
(I)
71
(2)
- условная вероятность события
/11
условии, что Aj имело место.
41
Средняя энтропия опыта р , цриходшцачся на каждый исход опыта рС , называется условной энтропией:
тп
P^i)HA (В). (3)
ь={ ь
Тогда информация s содержащаяся в оште <*? относительно опыта р , равна К л, р) = Н ( р ) - Н^СуЗ). Другими словами, при выполнении опыта ы. получаем информацию об оште р , равную уменьшению энтропии ошта р . (Уменьшается неопределенность, и в результате возникает информация.)
Если опыты °с и р независимы, то {р) = Н(/з), и, следовательно, К ы., р ) - 0 (при выполнении опыта ос отсутствует информация об опыте р ). Максимальную информацию, равную энтропии ошта р , можно, получить, если Н^(р) = О (при выполнении опыта ос не остается никакой неопределенности относительно ошта р ). В частности, 1( р, р ) = Н(/).
Таким образом, чем больше неопределенность опыта, тем большую информацию дает определение его исхода.
3.2.2. Избыточность генетических текстов. Рассмотрим реаль- *
«WM^HIlHlllfllW^IMllllllMllllll II 1ИШИ|1ИТ'МШЬ|.|* — 1ИДР»^ац111 mWIPIir.Hi.lu |**Ди • ?«» щ —д А М
кую последовательность, соответствующую некоторому ГТ. Пусть опыт <*. состоит в угадывании очередной буквы этой последовательности. Энтропия опыта равняется Hj =~Spilo^pi.
Энтропия ошта ы.г , состоявшего в угадывании следующей буквы, зависит от исхода опыта сс1 , т.е. от предыдущей буквы. Это условная энтропия Нос, ( aCz) = н( ы.г ) - Hj. (Обозначим ее как IL>.) Здесь oci аг - это опыт, состоящий в угадывании пар следующих друг за другом букв. Ясно, что

Предыдущая << 1 .. 7 8 9 10 11 12 < 13 > 14 15 16 17 18 19 .. 30 >> Следующая