Научная литература
booksshare.net -> Добавить материал -> Биология -> Александров А.А. -> "Компьютерный анализ генетических текстов" -> 25

Компьютерный анализ генетических текстов - Александров А.А.

Александров А.А., Александров Н.Н., Бородовский М.Ю. Компьютерный анализ генетических текстов — М.:Наука , 1990. — 267 c.
ISBN 5-02-004691-4
Скачать (прямая ссылка): komputerniyanalizgeneticheskihtextov1990.djv
Предыдущая << 1 .. 19 20 21 22 23 24 < 25 > 26 27 28 29 30 31 .. 119 >> Следующая

2.3.СЛОВАРИ ГЕНЕТИЧЕСКИХ ТЕКСТОВ
Как построить словарь генетического текста. Нуклеотидные последовательности морфологически являются непрерывными текстами без всяких знаков препинания, поэтому выделение в них "слов" (строк символов, имеющих некоторый "биологический" смысл) - непростая задача. Выделению значимых слов в генетических текстах посвящена книга Трифонова и Брендела (Trifonov,Brende11986), при этом отмечено, что известные в настоящее время несколько сотен таких слов представляют лишь малую долю словаря, используемого Природой. Концепция "словаря" генетического текста была введена в работе Брендела и др. (Brende1 et al., 1986), при этом под словами понимались короткие последовательности (1-граммы) с неожиданно высокой (или низкой) частотой встречаемости в тексте. При предсказании частоты встречаемости слова в тексте используется частота встречаемости подслов. Например, ожидаемую частоту встречаемости n-буквенного слова В,,...Вп можно вы-
числить через наблюдаемые частоты встречаемости (п-2) и (п-1) - под-слов по формуле (марковская модель (п-2)-го порядка)
Е(В,.....B„)=(f(B,......B„.1).f(B2.....B„))/f(B2......В..,) . (2.3)
Здесь через f f W) обозначена наблюдаемая частота встречаемости комбинации символов W.
Для оценки степени отклонения от ожидаемых значений можно использовать величину std(W)=(f(W)-E(W))/(E(W))1/2 и называть W "словом", если std(W) превышает некоторое пороговое значение, например 3,0.
В работе Брендела и flp.(Brendel et al.,1986) были построены гистограммы распределения значений std(W) для всех 1-грамм при 1=3,6 на выборке генов E.coli. Сравнение зтих гистограмм с гистограммами, построенными для случайных последовательностей, выявило значительные отличия, особенно для 3- и 4-грамм. При этом слова для которых std(W)>3, составляют лишь небольшую долю от всего числа слов - именно эти слова и образуют словарь генетического текста. В ряде работ (Brendel et al 1986; Beckmann et al, 1986; и др.) показано, что изучение словарей позволяет найти потенциальные регуляторные сайты в последовательностях ДНК, а также выявить функциональное и эволюционное сходство последовательностей.
Так, например, словарь фага Т7 сильно отличается от словарей E.coli и фага лямбда. Это может объясняться тем, что 17 имеет собственные ферменты, ответственные за репликацию и транскрипцию: разли-
чие словарей может отражать особенности генетических текстов, связанные с работой именно этих ферментов.
Следует сказать, что к построению и особенно к трактовке словарей генетических текстов следует подходить осторожно. Дело в том, что остается неясным вопрос, при каких отклонениях от ожидаемых значений частот встречаемости слов можно делать выводы об их биологической значимости.
Для оценки значимости отклонений встречаемости слов от средних значений необходимо знать дисперсию распределения встречаемости слова в тексте. В большинстве работ по лингвистике ДНК вопрос об уровне значимости либо вообще обходят, либо считают, что среднеквадратичное отклонение равно Е1/2, где Е - ожидаемое число встреч слова в тексте.
Вопрос о частоте встречаемости слова в тексте(даже в случае простейшей модели независимого порождения букв) математически является довольно сложным и требует привлечения аппарата производящих функции и теории функций комплексного переменного. Этот вопрос был всесторонне исследован в работах Гоулдена и Джексона, Гуибаса и Одлыжко (Goulden,Jackson,1979; Guibas,Odlyzko,1981). Там же подчеркнуто, что вероятностные характеристики частот встречаемости слова в тексте за-
I А Т А Т
а( i)
А Т А Т А Т А Т А Т А Т А Т А Т
1
0
1
О
К.тлт=1+0*х+1 *х2+0’х3
АТ АТ
Кжтдт(1/4)-1+1/16
Р и с.2.3. Процедура вычисления автокорреляционного многочлена К в точке 1/4
Коэффициенты многочлена Kw=k0+k,x'+... +kn jX"'1 слова W, состоящего из п букв определяются по правилу:
висят не только от вероятностей входящих в слово букв, но и от структуры самопересечений слова, которая задается автокорреляционным многочленом (рис.2.3).
Казалось бы все слова одной длины равноценны с точки зрения числа их встреч в длинном тексте. Однако это не так: встреча слова АА 57С раз в последовательности ДНК фага ФХ174 (5375 букв) - вполне нормальное явление, а вот встреча АТ в такой последовательности 570, и даже 540(1), раз - подозрительно частое событие. Таким образом, слова неравноценны и вероятность встретить слово в тексте к раз зависит не только от числа букв в слове, но и от вида слова. Этот неожиданный вывод, являющийся причиной целого ряда математических парадоксов (Gardner,1974) до сих пор игнорируется во многих работах по статистике ДНК. Ниже приводятся аналитические формулы для подсчета дисперсии числа встреч слова при различных моделях порождения генетических текстов.
Самопересечения слов и построение словарей генетических текстов. Для оценки значимости отклонений от средних статистических характеристик в генетических текстах необходимо получить выражение для дисперсии числа встреч слова в тексте. При этом предполагается, что фиксирована некоторая вероятностная модель порождения генетического текста. Следует сказать,что в ряде работ (deWachter,1981; Dayhoff,1984; Breen et al.,1985) получены довольно сложные аналитические формулы для вероятности к появлений фиксированного слова W б случайном тексте, однако переход от этих формул к выражению для дисперсии не представляется возможным. Рассмотрим сначала, как и в работе Бородовского и др.(1987), простейшую модель порождения текста путем случайного независимого равновероятного появления букв A,T,G,C, а затем обобщим полученные результаты на случай более сложных и адекватных моделей генетического текста (следует отметить, что
Предыдущая << 1 .. 19 20 21 22 23 24 < 25 > 26 27 28 29 30 31 .. 119 >> Следующая

Реклама

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed

Есть, чем поделиться? Отправьте
материал
нам
Авторские права © 2009 BooksShare.
Все права защищены.
Rambler's Top100

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed