booksshare.net -> Добавить материал -> Биология -> Александров А.А. -> "Компьютерный анализ генетических текстов" -> 42

Компьютерный анализ генетических текстов - Александров А.А.

Александров А.А., Александров Н.Н., Бородовский М.Ю. Компьютерный анализ генетических текстов — М.:Наука , 1990. — 267 c.
ISBN 5-02-004691-4
Скачать (прямая ссылка): komputerniyanalizgeneticheskihtextov1990.djv

Предыдущая << 1 .. 36 37 38 39 40 41 < 42 > 43 44 45 46 47 48 .. 119 >> Следующая

В 1982г. появилась первая из цикла работ Стадена, посвященных распознаванию кодирующих областей (Staden, McLachlan, 1982). Стаден разработал несколько методов, два из которых можно отнести к числу универсальных: 1) метод, в котором используется статистика частот кодонов для модельной последовательности с усредненным аминокислотным составом (см. табл.3.2); 2) метод, который идентифицирует присут-
ствие характерных различий в позиционных частотах нуклеотидов (см. Staden, 1985).
Следует сказать, что несовпадение позиционных частот мононуклеотидов в разных рамках анализируемой последовательности служит признаком кодирующей области и в двух других методах универсального типа (Bibb et al.,1984; Almagor,1985).
Таблица 3.4
Правила предсказания кодирующих свойств по функции Фиккетта
Значение I Вероятность I Предсказания
| кодирования |
От 0,32 ДО 0,43 0,00 Не кодирует
" 0,43 н 0,53 0,04
0,53 м 0,64 0,07 и
0,64 11 0,74 0,29 и
0,74 " 0,84 0,40 Не ясно
0,84 It 0,95 0,77
" 0,95 и 1,05 0,92 Кодирует
1,05 ” 1,16 0,98 >1
1,16 (1 1,26 1,00
1,26 и 1,37 1,00
Использование информационных свойств кодонов. Оригинальный подход к рассматриваемой задаче (Tramontano, Macchiato,1986) связан с информационными характеристиками кодонов. Эти величины определяется по формуле
3 nj
f =j5( Ei p*'gj‘)/nj’
где Hj - число "осмысленных" мутаций для основания находящегося в j-й позиции данного кодона (т.е без учета мутаций приводящих к терминирующим кодонам); р, - относительная частота мутаций, вычисленная исходя из анализа гомологичных генов родственных организмов; gjt
- величина, отражающая различие в гидрофобностях аминокислоты, которую кодирует данный кодон, и аминокислоты, в которую транслируется мутировавший кодон. Значения Г были определены для всех смысловых кодонов (см.табл.3.5). При анализе нуклеотидной последовательности для составляющих ее кодонов вычислялась средняя величина <Г>. Исследование выборок кодирующих и некодирующих областей позволило найти распределения значений <f> на объектах каждого класса и аппроксимировать зти эмпирические распределения кривыми гауссовского типа с параметрами (ш,=2,25, s,=0,15) и (ш2=2, 5, s2=0,25) соответственно.
Теперь при исследовании нового объекта - открытой рамки с неизвестными свойствами - вероятность ее принадлежности к числу коди-кодирующих областей определяется по формуле
________________(1/s, )jexp[-( <f>-m, )Vs,2l________________
(l/s,)*exp[-( <f>-m1)Vs,2] + (l/s2)*exp[-( <f>-m2)2/s22]
Область возможных значений p рекомендуется разбить на три диапазона. Первый - 0 < Р < Рп = mj-s/З - соответствует предсказанию о
том, что последовательность обладает кодирующими свойствами, второй -Pii < Р < Pk = m2-s2/3 - оставляет вопрос открытым и третий - Р > Рк
- дает предсказание, что последовательность не является кодирующей. Исследование надежности предсказаний на контрольной выборке показало, что в 13% случаев кодирующие последовательности были приняты за некодирующие и в 21% случаев - наоборот, некодирующие последодователь-носТл были приняты за кодирующие, причем по 15% тех и других
Таблица 3.5
Информационные значения для смысловых кодонов
2- -й нуклеотид 1
1-й А С G Т 3-й
нуклео нуклео
тид тид
А 2,9 1,3 1,5 3,9 А
3,4 1,2 1,0 4,3 С
2,3 1,3 1,7 3,0 G
2,8 1,2 1,1 4,4 Т
С 3,5 4,2 1,4 1,9 А
3,4 3,5 1,6 1,5 С
2,0 4,2 1,6 2,2 G
3,0 3,5 1,6 1,5 Т
G 1,4 1,0 1,4 2,4 А
1,2 1,0 0,8 2,4 С
1.4 1,0 1,5 1,8 G
1,2 1,0 0,8 2,4 Т
Т _ 3,0 _ 2,9 А
4,1 3,2 4,1 2,5 С
4,1 5,6 1,7 G
4,1 3,2 3,5 2,5 Т
функциональных зон были неопознаны. Эти цифры явно уступают аналогичным показателям для метода Фиккетта. По-видимому, существует лишь ограниченное число ситуаций, когда можно предвидеть искажение статистичес кой структуры кодирующей области (перекрывание нескольких открытых рамок на одной нити или на комплементарных нитях) и использовать преимущества метода Трамонтано - Мачиато, связанного в большей степени не с анализом статистических характеристик собственно нуклеотидной последовательности, а со свойствами гипотетического белка.
3.3,РАСПОЗНАВАНИЕ КОДИРУЮЩИХ ОБЛАСТЕЙ ПО ОСОБЕННОСТЯМ ТРИПЛЕТНОЙ СТРУКТУРЫ. ОБУЧАЮЩИЕ ВЫБОРКИ
Использование статистики синонимических кодонов. Олигонуклеотид-ные статистики кодирующих областей, т.е. частоты встречаемости 1-грамм, специфичны для таксономических групп и даже для отдельных

Предыдущая << 1 .. 36 37 38 39 40 41 < 42 > 43 44 45 46 47 48 .. 119 >> Следующая