Научная литература
booksshare.net -> Добавить материал -> Биология -> Эбилинг В. -> "Физика процессов эволюции" -> 142

Физика процессов эволюции - Эбилинг В.

Эбилинг В., Энгель А., Файстель Р. Физика процессов эволюции — М.: УРСС, 2001. — 342 c.
Скачать (прямая ссылка): fizikaprocessovevolucii2001.djvu
Предыдущая << 1 .. 136 137 138 139 140 141 < 142 > 143 144 145 146 147 148 .. 176 >> Следующая

?(А<Ау) Ф р(А,-) p(Aj),
rfAlAA) = ?MMW. <¦¦•*>
Соответствующие разложения допускают и высшие вероятности. Подставляя выражения для информационной энтропии источника в соотношение (11.22), получаем
Я, = Я,+(г-1)(Яа-Я,), (11.26)
т. е. все высшие энтропии сводятся к Н\ и Н2. Разделив на г и совершив предельный переход, получим для марковского источника первого порядка
ш
Я = lim — = Я2 - Я,. (11.27)
Г—*ОС Т
Обобщение на случай марковского источника m-го порядка (Gatlin, 1972) имеет следующий вид:
Яг = Яг_1 + (г - т)(Ят+1 - Ят). (11.28)
После деления на г и предельного перехода г —> оо получаем
Я — lim — = Ят+1 - Ято. (11.29)
г—>00 Г
Мы видим, что для анализа марковского источника то-го порядка достаточно вычислить энтропии до (тп + 1)-го порядка включительно. К сожалению, порядок памяти биополимеров точно не известен, так как мы не располагаем еще достаточным количеством точных данных. В простейшем случае мы принимаем тп = 0 для белков и тп = 1 для полинуклеотидов (Galtin, 1972). В новых работах постулируют m = 1 для полипептидов и тп = 2 для полинуклеотидов. В дальнейших исследованиях мы опираемся главным образом на последние предположения. Как видно из примеров, последовательность энтропий Н^\ г = 1, 2, 3,... , позволяет сделать важные заключения о внутренней структуре соответствующего языка. Выбор основания логарифмов в соотношениях (11.20) и (11.21) до сих пор мы оставляли без внимания.
Фиксируя основание, мы тем самым задаем единицу измерения энтропий. В теории информации чаще всего выбирают основание 2; возникающую при этом единицу принято называть двоичной (бинарной) единицей, или сокращенно битом. Если алфавит содержит А символов, то в качестве основания логарифмов разумно выбрать число А и назвать соответствующую единицу A-единицей. Если выбрать натуральные логарифмы, то мы приходим к описанию энтропий без единицы меры.
Рассмотрим теперь некоторые применения введенных выше энтропий. Основная трудность состоит в том, что в случае передачи биологических или общественных сообщений мы никогда не имеем дела с определенными источниками, обладающими известными вероятностями испускания сигнала. Известны более или менее длинные
последовательности молекул или букв, позволяющие определить частоты, но не вероятности. Если воспользоваться вместо вероятностей относительными частотами, то получатся следующие модифицированные энтропии:
= 4Г) log 4Г) = log JV(r) - i Е lQg Nlr)- (11-30)
* k
Здесь под N^ мы понимаем абсолютную частоту к-го сорта слов длины г в заданной последовательности
— абсолютное число всех r-слов в последовательности.
В качестве трех важных представителей естественных языков мы рассмотрим далее следующие:
1) язык соединений, т. е. кодирование информации в полинуклеотидах (ДНК или РНК);
2) язык белков, т. е. «письменность» полинуклеотидов (совокупности белков);
3) письменности, разработанные человечеством.
В качестве приложения изложенных выше понятий мы проведем энтропийный анализ четырех естественных последовательностей, принадлежащих названным выше языкам.
1. Фрагмент последовательности ДНК Е. coli: ген предступени тирозина тРНК (Корнберг, 1977); состоит из 4 сортов нуклеотидов: А, Ц, Г и Т; длина 126:
ТГГТГГТГГГГГААГГАТТЦГААЦЦТТЦГААГТЦГАТГАЦГГЦАГАТТТА
гагтцтгцтцццтттгггцццтцгггааццццаццацгггтаатгц
ЦТТТАЦТГГЦЦТГЦТЦЦЦТТАТЦГГГААГЦ
2. Последовательность рибосомной РНК человека: 55 рРНК КВ карциномы (Sankaff, Morel, Cedergren, 1973); длина 120, состоит из 4 нуклеотидов А, Ц, Г, У:
гуцуацггццауаццацццугаацгцгцццгауцуцгуц
УГАУЦУЦГГААГЦУААГЦАГГТУЦГТГЦЦУГГУУАГУАЦУУГ
ГАУГГТАГАЦЦГЦЦУГГГААУАЦЦГГГУГЦУГУАГГЦУУ
3. Белковая последовательность — цитохром с человека (Geissler et al., 1977); длина 104; состоит из 20 аминокислот.
GDVEKGKKIFIMKCSQCHTVEKGGKHKTGPNLHGLFGRKTG
QAPGYSYTAANKNKGIIWGEDTLMEYLENPKKY1PGTKMIF
VGIKKKEERADLIAYLKKATNE
4. Отрывок из «Соляриса» Станислава Лема (в переводе на немецкий язык); алфавит из 32 знаков (букв, пробела «и» и знаков препинания):
UMuNEUNZEHNuUHRuBORDZEITuSTIEGuICH,VORBEIuANuDENuLEUTEN,
DIEuDENuSCHACHTuUMSTANDEN.UEBERuDIEuMETALLSPROSSENuINSu
INNEREuDERuKAPSELuHINAB.DRINNENuWARuGERADEuGENUGuPLATZ,
UMuDIEuELLENBOGENuWEGZUSPREIZEN.SOBALDuICHuDASuENDEuINu
DIEuLEITUNGuGESCHRAUBTuHATTE,DIEuAUSuDERuWANDu
HERVORSTAND,BLAEHTEuSICHuDERuRAUMANZUGuAUF,UNDuVONuNUNu
ANuKONNTEuIGHuNICHTuDIEuKLEINSTEuBEWEGUNGuMEHRu
AUSFUEHREN.ICHuSTAND,ODERuHINGuVIELMEHR,IMuLUFTBETT,Mn\i
DERuMETALLHUELLEuINuEINSuVERFUGT.ALSuICHuDENuBLICKuHOB.SAHu
Предыдущая << 1 .. 136 137 138 139 140 141 < 142 > 143 144 145 146 147 148 .. 176 >> Следующая

Реклама

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed

Есть, чем поделиться? Отправьте
материал
нам
Авторские права © 2009 BooksShare.
Все права защищены.
Rambler's Top100

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed