Научная литература
booksshare.net -> Добавить материал -> Биология -> Александров А.А. -> "Компьютерный анализ генетических текстов" -> 56

Компьютерный анализ генетических текстов - Александров А.А.

Александров А.А., Александров Н.Н., Бородовский М.Ю. Компьютерный анализ генетических текстов — М.:Наука , 1990. — 267 c.
ISBN 5-02-004691-4
Скачать (прямая ссылка): komputerniyanalizgeneticheskihtextov1990.djv
Предыдущая << 1 .. 50 51 52 53 54 55 < 56 > 57 58 59 60 61 62 .. 119 >> Следующая

Принципы использования матрицы позиционных частот встречаемости нуклеотидов мы продемонстрируем на примере работы Голованова и со-авт. (Golovanov et al., 1982; Голованов, 1987). Здесь матрица частот встречаемости используется для получения числа, характеризующего конкретную последовательность как возможный функциональный сигнал по
следующему правилу: нуклеотиду b(1) в каждой позиции последовательности соответствует один сомножитель, конкретное значение этого сомножителя равно частоте встречаемости нуклеотида в матрице частот
встречаемости
S = П Flb(1) , (4.1)
1 = 1
где число S -это функция от нуклеотидной последовательности, названная авторами "СТАТСАЙТ". Записанную таким образом функцию можно преобразовать из мультипликативной в аддитивную
L
SL = ln(S) = Е m(Flb(1)). (4.2)
Значения логарифмов частот встречаемости можно записать в отдельную матрицу штрафов/премий (матрица весов, score matrix) fflb, з которой записывается цена штрафа или премии, назначаемой (аддитивно) в зависимости от того, какой нуклеотид встретился на данном месте.
В некоторых случаях вместо матрицы позиционных частот встречаемости мононуклеотидов используется аналогичная матрица для динуклеотидов. В ячейке Fld динуклеотидной матрицы записана частота встречаемости динуклеотида d (d= АА, AT, AG, АС, ТА, ...), начинающегося в позиции 1. Функция S вычисляется аналогично формуле (4.1)
S = П Fld(1) , (4.3)
1 * 1
где d(1)=b(1)Ь(1+1) - соответствующий динуклеотид.
Итеративное выравнивание. Функция 'СТАТСАЙТ" была применена для распознавания участков инициации трансляции системы E.coli (RBS). Предположительно, для узнавания RBS существенны два района последовательности мРНК: участок в районе инициирующего кодона (1C), и участок Шайна - Дальгарно на расстоянии шести-девяти нуклеотидов от инициирующего кодона (SD). Размеры каждого участка (блока) выбирались таким образом, чтобы он включал все позиции, в которых частоты встречаемости нуклеотидов значимо (по критерию ХИ-квадрат) отличались от ожидаемых (1/4). Кроме того, авторы решили учесть участок, обедненный G (GD), в положении +11..+14 относительно точки инициации трансляции (рис.4.2).
Начальное приближение матрицы частот встречаемости нуклеотидов в каждом из блоков выбиралось исходя из первоначального выравнивания. Затем вычислялось новое уточненное положение SD блока в каждой последовательности, по этим положениям строилось новое выравнивание и составлялась новая матрица частот встречаемости моно- или динуклео-тидов. Итерационный процесс проводился до тех пор, пока выравнивание Не переставало меняться.
Для расстояний между 1C и SD блоками составлялась своя матрица частот встречаемости расстояний S(L), которая мультипликативно учитывалась при выборе правильного положения блоков на последовательности. Наилучшим считалось такое положение блоков на последовательности, при котором достигался максимум функции
S(IC)*S{SD)*S(L),
(4.4)
где S(IC) вычислена по формуле (4.1) для участка IC, S(SD) - для участка SD. Тем самым алгоритм находил оптимальное выравнивание каждой из последовательностей для сформировавшегося поискового образа функционального сигнала.
5'
мРНК
-15...-6 -5...+7 +11...+14
А SD 1C GD
КОДИРУЮЩАЯ ОБЛАСТЬ
AUG/GUG
Б
В
Г
Д
Е
SD
AUG/GUG
SD
F1H
AUG/GUG
SD
AUG/GUG
SD
SD
SD
F1H
AUG/GUG
(*)
(*)
1C
1C
GD
ERR=92%
ERR=62%
ERR=77%
ERR=64%
ERR=44%
ERR=37%
(*) - динуклеотидная матрица частот
Рис. 4.2. Построение и сравнение моделей сигналов инициации трансляции системы Е.coli (Golovanov et al., 1982; Голованов, 1987)
A - статистически неслучайные области на выборке из 124 последовательностей: SD - область сигнала Шайна - Дальгарно, 1C - область вокруг инициирующего кодона, GD -- область в кодирующей части мРНК, обедненная нуклеотидами G; Б - Ж - схемы шести моделей, использованных при анализе, в моделях Б,В,Е,Ж рассчитывалась матрица частот мононуклеотидов; в моделях Г и Д - динуклеотидов. В моделях Б-Д в районе инициирутощего кодона рассматривались только три нуклеотида (AUG/GUG), в Е и Ж - строилась матрица частот всей области -5. ..л-7. Прямая линия обозначает фиксированное расстояние между блоками, волнистая - вариабельное. Справа указаны частоты ошибок при распознавании контрольной выборки последовательностей, эти частоты использовались для оценки качества моделей
Сравнение моделей RBS. Схематические изображения исследованных моделей RBS приведены на рис.4.2. Разница между моделями состоит в том, что в некоторых из них блоки считаются находящимися на фиксированном расстоянии, в других - на переменном, в некоторых случаях вместо частот мононуклеотидов используется матрица частот встречаемости динуклеотидов.
Предыдущая << 1 .. 50 51 52 53 54 55 < 56 > 57 58 59 60 61 62 .. 119 >> Следующая

Реклама

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed

Есть, чем поделиться? Отправьте
материал
нам
Авторские права © 2009 BooksShare.
Все права защищены.
Rambler's Top100

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed