Научная литература
booksshare.net -> Добавить материал -> Биология -> Соловьев В.В. -> "Использование ЭВМ в молекулярной биологии. Введение в теорию генетических текстов" -> 18

Использование ЭВМ в молекулярной биологии. Введение в теорию генетических текстов - Соловьев В.В.

Соловьев В.В. Использование ЭВМ в молекулярной биологии. Введение в теорию генетических текстов — Новосибирск, 1988. — 93 c.
Скачать (прямая ссылка): ispolzovanieevmvmolekulyarnoy1988.djvu
Предыдущая << 1 .. 12 13 14 15 16 17 < 18 > 19 20 21 22 23 24 .. 30 >> Следующая

3.3.2. Контекстный анализ несовершенных повторов. Подробное описание методов контекстного анализа приводится в работах Соловьева и соавт. /108; 130 - 132/.
53
Произведем расчет среднего числа повторов (6 , к) в случайной последовательности, состоящей из JV нуклеотидов, встречающихся с частотами Рр Р2 *».«, Рта , где т - число различных типов нуклеотидов. Вероятность того, что два случайно выбранных нуклеотада идентичны, равна
т z
Р-? Р- . (15)
v=l
Вероятность того, что два случайно выбрнных участка длиной I различаются по к нукдеотдцам» равна
Р(е, ю- cKt рс~ка-р)к, (16)
где ' Се - число возможных расположений раз,дичащихся нуклеотидов.
Подсчитаем число возможных: расположений двух неперекрываи-щихся сегментов длиной I нуклеотидов Каждый. Первый сегмент можно расположить N - 21 +? i способами. Если первый сегмент начинается с ь-й позиции, то второй сегмент можйо расположить N - i - 26 * & способами. Итого, число расположений сегментов равно
% •= 2, ( N- ъ - It + Z)~ —---Т7
е 2
Ш формул (16), (17) среднее число повторов (о , к) рассчитывается следующим образом:
п(б, к) = (fc - р(6,К). (18)'
Будем далее рассматривать повторы ( I s к), среднее число которых на случайную последовательность длиной М близко к L, В этом случае можно использовать биномиальное распределение для оценки вероятности обнаружения в этой последовательности ть повторов ( I, к). Эта вероятность равна
л" Л, чУ-л*
p(n)=Cf р (в. к )(1-р(6, к)) } I (19)
где р ( € , к) определяется по формуле (16) , а f - до формуле (г?).
54
мй
• .............. ??? .? .. 1 ?
Оценка вероятности Р (л ) верна в случае, если наличие одного повтора никак не связано с наличием другого, т.е. когда появление повтора можно рассматривать как независимое событие. В часто встречающейся ситуации, где эта оценка нецриме-нима, два повтора ( € , к) входят в состав более длинного повтора ( ?+4, к ). Вероятность, что у участков повтора длиной С совпадут ( С +1 )-е нуклеотиды, равна р ; вероятность, что совпадут ( t + z)-e нуклеотиды, равна рг и т.д. Рассматривая повторы, среднее число которых близко к I, достаточно учесть возможность появления повторов ( В , к) из одного более длинного повтора {t+i ,к) (так кал рг« i ),
Тогда вероятность обнаружения п повторов ( 6 , к) в случайной последовательности равна п/г „. •
^ ь j, j\-Zt л и (f-(n-i)
Р(л)= Е сп_ь р.о р) . сч р (б,к).ц-р(е,юу , (20) j=0
Чтобы оцределить верхнюю границу доверительного интервала с уровнем значимости у для числа повторов, ожидаемых по случайным причинам, необходимо найти такое п/с , что
Т1в-1 П0
? pCnxtj, и ? (21)
л=о л=о
Если в реальной последовательности число повторов равно или превышает верхнюю границу интервала, т.е. л (С, к)> пе(в,к), то такое число повторов в данной последовательности будем считать достоверно отличающимся от ожидаемого их числа 7v (€ , к), а сами повторы называть неслучайными.
Полученная оценка ожидаемого числа инвертированных повторов n ( I , к) имеет следующий вид:
n(.e,K)=<fe- рее, к)= ft - С* (22)
где р. 2. (pA-pv+ PG-pc )4 fc= +Л -число
возможных расположений пары участков размера С в последовательности длиной JV ; р - вероятность комплементарности Двух нуклеотидов; с? - число возможных расположений К комп-
55
лементарных нуклеотидов в участке длиной ? .
Для комплементарных палиндромов эта оценка имеет вид
Ъ(6,К)= (ft- р(е,К)=(Н-б*1)-Сцг//г~К(1-р)К, (23) если f> четное;
к fcL-K
Ti(t, К)= fe.p(e,K) = (/V-e + i)- С е_( р 2 (i-р) f (24)
т~
если I нечетное. Здесь ( +1 ) - число возможных расположений участка длиной 6 в последовательности из нуклеотидов.
Как и в случае прямых повторов, для инвертированных повторов и комплементарных палиндромов могут быть на основе соответствующих выражений для р ( 6 , к) вычислены значения верхней границы доверительного интервала п0 ( 6 , к).
Быстрый поиск несовершенных повторов осуществляется в программе G0M0L , которая входит в состав пакета КОНТЕКСТ /108/.
Рассмотренный подход применен к анализу генов, кодирующих глобулярные белки цро- и эукариот. Оказалось, что для этих генов свойственна высокая насыщенность несовершенными повторами различных типов /130 - 132/ (рис. 26). Существенно, что эти повторы чаще всего находятся в одинаковой рамке считывания (т.е. оба фрагмента повтора начинаются с одинакового по
Рис. 26. Соотношение мезду ожидаемым и наблюдаемым числом прямых повторов в гене /-субъединицы РНК-поли-мер&зы ?. coii
56
счету нуклеотида в кодоне) и локализуются вблизи участков генов, кодирующих а-спирали и р -структуры глобулярных белков (рис. 27). Было высказано предположение, что возникновение повторов связано с ограничениями на порядок и состав нуклеотидов в генах, накладываемыми вторичной структурой кодируемых ими белков и неравномерностью частот использований синонимичных кодонов /130/.
983 ***** *** *
5'...АА AAA CTG САС GAT GTC ТСТ GAA GAA...3'
Lys Leu His Asp Val Ser Glu Glu =1,2 ?^ =0.80
1025
5'...AA AAA CTG CAG CAG ATT GAA GAG GAA...3'
Lys Leu Gin Gin lie Glu Glu Glu =1,3 Py3 =0,85
Рис. 27. Участки прямого повтора в гене ^-субъединицы РНК-полимеразы Е. coii кодируют белковые фрагменты со сходной вторичной структурой (указана локализация повтора в гене и среднее значение ос-спиралького и р-структурного коэффициентов Чоу - Фасмана)
Предыдущая << 1 .. 12 13 14 15 16 17 < 18 > 19 20 21 22 23 24 .. 30 >> Следующая

Реклама

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed

Есть, чем поделиться? Отправьте
материал
нам
Авторские права © 2009 BooksShare.
Все права защищены.
Rambler's Top100

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed