booksshare.net -> Добавить материал -> Биология -> Александров А.А. -> "Компьютерный анализ генетических текстов" -> 6

Компьютерный анализ генетических текстов - Александров А.А.

Александров А.А., Александров Н.Н., Бородовский М.Ю. Компьютерный анализ генетических текстов — М.:Наука , 1990. — 267 c.
ISBN 5-02-004691-4
Скачать (прямая ссылка): komputerniyanalizgeneticheskihtextov1990.djv

Предыдущая << 1 .. 2 3 4 5 < 6 > 7 8 9 10 11 12 .. 119 >> Следующая

Для решения задач о поиске гомологий разработаны эффективные алгоритмы и соответствующие программы. Однако, пожалуй, наибольшей популярностью среди биологов пользуются программы, прямо не решающие ни одну из перечисленных задач. Это - программы построения так называемых точечных матриц гомологии. Они очень наглядны и не требуют от исследователя точного знания, какого типа гомология его интересует.
Известен целый ряд нуклеотидных последовательностей, достаточно сильно отличающихся друг от друга, в то время как кх функциональная близость не вызывает сомнений. Речь идет о транспортных и рибосомных РНК. Згзсь приходится говорить о гомологии совсем иного свойства - гомологи-, i по вторичным структурам. При текстуальном сравнении этих последовательностей под близостью следуе" понимать существование схожих набооов инвертированных повторов, способных образовывать двунитевые участки (Спирин,1Э86). Другим примером подобной гомологии является близость (предсказанных) пространственных структур альфа и бета интер-феронов при очень слабом сходстве кодирующих их областей. На гомологиях подобного рода мы здесь подробно останавливаться не будем, поскольку для их выявления нет достаточно развитых алгоритмов.
Существуют чисто экспериментальные методы поиска гомологий нуклеотидных последовательностей.Наиболее распространенными являются подходы, основанные на гибридизации молекул нуклеиновых кислот и дальнейшем анализе дуплексов тем или иным методом. При анализе протяженных гомологий применяют также сопоставление рестрикционных (физических) карт соответствующих фрагментов ДНК. й в том, и в другом случае нет необходимости определять последовательность оснований в сравниваемых молекулах. Рассмотрение соответствующих методик не является предметом настоящей книги.
В настоящей главе рассмотрены основные вопросы, связанные с поиском гомологий. В параграфе 2 описаны простейшие алгоритмы поиска гомологий
- методы построения точечных матриц гомологии и методы поиска наибольшего общего слова. Параграф 3 посвящен методам динамического программирования для задач выравнивания. В параграфе 4 рассмотрена проблема поиска по банкам генетических текстов. В параграфе 5 подведены основные итоги и перечислены некоторые нерешенные проблемы, связанные с поиском гомологий.
1.2.ПРОСТЕЙШИЕ МЕТОДЫ ПОИСКА ГОМОЛОГИЙ
Точечные матрицы гомологии. Построение так называемых точечных матриц гомологий (см., ьчпример, Gibls, McIntyre. 1970) является одчлл наиболее популярных мэтодоз поиска гомологий. Суть метода сводится к следующему. Пусть требуется сравнить последовательности S, и S2 длиной N, и N2 соответственно. Для анализа этих последовательностей строится прямоугольник размером N,*N2 (рис.1.1), по верхней стороне прямоугольника выписывается (или подразумевается) первая последовательность, по
Рис. 1.1. Построение точечной матрицы гомологии. Линии соответствуют гомологиям
Рис. 1.2.Зависимость вероятности появления точки на точечной матрице гомологии от отношения(т!пчисло совпадений)/ (длина окна) при разных размерах окна 1 для нуклеотидных (а) и аминокислотных (б) последовательностей
а б
! = 1 0 1 = 15 I = 20
TTCAAG7ATCAAGCTCACGG
левой стороне - вторая последовательность. Затем в каждой клетке прямоугольника, соответствующей совпадающим буквам, ставится точка. При анализе полученной картины выделяют группы точек, расположенных на линии, параллельной диагонали (выделены на рисунке). Эти группы точек и определяют гомологичные фрагменты на последовательностях. Сднако полученная картина обладает слишком большой избыточностью информации и поэтому трудно читается. Было бы лучше, если бь: на этой картине отсутст-
вовали одиночные точки, а при сравнении более длинных последовательностей - комбинации точек, которые можно считать случайными. Таким образом, возникает задача фильтрации. Обычно она решается так: точка в
точечной матрице гомологии ставится при условии, что она соответствует буквам, принадлежащим фрагментам последовательностей длиной w и имеющим не менее к совпадений (естественно w>=k). Иными словами, на матрице отмечаются локальные гомологии без делеций и вставок при критерии "не менее к совпадений на фрагменте длиной w”. С помощью теории вероятностей при заданных w и к можно оценить вероятность появления точки на матрице гомологии. Действительно, анализ окна длиной w сводится к схеме Бернулли, где успех - совпадение пары букв. Тогда вероятность P(w,k) появления точки равна
w
P(w,k)= Е с;р‘(1-р)*'', i =к w
где С‘ - биномиальный коэффициент; р - вероятность совпадения букв в последовательностях. На рис.1.2,а приведены графики зависимости вероятности появления точки на точечной матрице гомологии от отношения k/w при разных w для случая нуклеотидных последовательностей (р=0,25). На рис.1.2,б приведены аналогичные графики для аминокислотных последовательностей. Более полный анализ методов фильтрации при построении точечных матриц гомологии дан в гл."Статистические методы анализа генетических текстов". Отметим, что при разных w и к, отвечающих одинаковым вероятностям, точечные матрицы гомологии могут оказаться сущест-

Предыдущая << 1 .. 2 3 4 5 < 6 > 7 8 9 10 11 12 .. 119 >> Следующая