booksshare.net -> Добавить материал -> Биология -> Александров А.А. -> "Компьютерный анализ генетических текстов" -> 17

Компьютерный анализ генетических текстов - Александров А.А.

Александров А.А., Александров Н.Н., Бородовский М.Ю. Компьютерный анализ генетических текстов — М.:Наука , 1990. — 267 c.
ISBN 5-02-004691-4
Скачать (прямая ссылка): komputerniyanalizgeneticheskihtextov1990.djv

Предыдущая << 1 .. 11 12 13 14 15 16 < 17 > 18 19 20 21 22 23 .. 119 >> Следующая

Описанный алгоритм, как, впрочем, и другие алгоритмы поиска гомологий по банку, является только фильтром, отсеивающим заведомо негомологичные пары, и если пара последовательностей успешно прошла через него, необходимо применить один из описанных выше методов поиска гомологии между двумя последовательностями, чтобы убедиться в реальности найденной гомологии и построить выравнивание. Эффективность статистического фильтра достаточно высока - до 95% пар последовательностей, прошедших через него, действительно имеют гомологию (Миронов, Александров, 1988).
1.5.ЗАКЛЮЧЕНИЕ
Понятие гомологии является очень широким и включает в себя строгую гомологию, гомологию с заменами, гомологию с делециями и вставками и т.п.. Кроме того, различают глобальную и локальную постановки задач поиска гомологии. Для решения задач поиска строгой гомологии наиболее эффективными являются методы, связанные с 1-граммным разложением и с построением позиционных деревьев; решение задач выравнивания обеспечи-
вают методы динамического программирования. Наиболее популярным благодаря своей наглядности является метод построения точечных матриц гомологии, хотя он является скорее способом визуализации результатов работы различных алгоритмов, чем самостоятельным методом.
В настоящей главе была описана только часть из всего многообразия методов поиска гомологий, но даже эта малая часть приводит к естественному вопросу: какому же методу следует отдать предпочтение, какая
задача поиска гомологии является самой общей? Такой универсальной задачи нет, а стало быть нет и универсального метода поиска гомологии. Поэтому чтобы анализ последовательности был достаточно глубоким, необходимо применить несколько алгоритмов, решающих разные задачи поиска гомологии и при различных наборах параметров. Например, при поиске по банку последовательностей целесообразно применить метод Кондрашова -Ройтберга для поиска коротких гомологий и статистический метод для поиска протяженных гомологий. Затем для найденных пар можно применить метод поиска локальных гомологий при разных наборах параметров. Кроме того, имеет смысл построить глобальное выравнивание с родственными последовательностями и т.д. Только такая комплексная обработка позволит найти почти все эволюционные и функциональные связи анализируемой последовательности и не даст пропустить интересные закономерности.
Есть ли нерешенные до сих пор проблемы, связанные с поиском гомологий? Безусловно. Это прежде всего вопрос о статистической значимости выравнивания. Пока в большинстве случаев он решается с помощью моделирования на случайных последовательностях (см. гл. "Статистические методы анализа генетических текстов"). Кроме того, во многих случаях, по-видимому, возможно ускорить работу алгоритмов поиска гомологий. Эта проблема остается актуальной, несмотря на непрерывный рост мощности современных компьютеров, поскольку объем молекулярно-генетической информации растет не менее быстро.
Глава 2. СТАТИСТИЧЕСКИЕ МЕТОДЫ
АНАЛИЗА ГЕНЕТИЧЕСКИХ ТЕКСТОВ
2.1.ВОЗМОЖНОСТИ СТАТИСТИЧЕСКИХ МЕТОДОВ В ИССЛЕДОВАНИЯХ ГЕНЕТИЧЕСКИХ ТЕКСТОВ. ОСНОВНЫЕ ЗАДАЧИ
Представьте себе, что Вам в руки попала книга на неизвестном языке. Можно ли понять правила этого языка и извлечь из книги какую-ни-будь информацию? С похожей задачей столкнулись биологи и математики в конце 70-х годов сразу после появления методов определения последовательностей нуклеотидов в ДНК. Первые попытки ее решения были связаны с подробным статистическим анализом прочитанных генетических текстов, например определением частот встречаемости различных слов и сравнением этих характеристик у различных организмов. Поэтому первые работы по статистическому анализу нуклеотидных последовательностей напоминали порой демографические справочники - приводилась подробная статистическая информация, но вопросы о том, по каким законам записан генетический текст, как выявить в нем функционально значимые области, что в нем играет роль знаков препинания и т.д., нисколько не прояснялись. Можно ли с помощью статистического анализа ДНК извлекать из прочитанных генетических последовательностей нужную "смысловую" информацию и выявить законы формирования и "работы" генетического текста? Положительный ответ на этот вопрос был дан в начале 80-х годов после появления алгоритмов поиска функциональных областей в первичных структурах ДНК.
Здесь мы кратко опишем основные содержательные задачи статистического анализа ДНК, рассматривающиеся в зтой главе.
Выбор моделей генетических текстов. Не зная еще полностью язык генетических текстов, мы вынуждены угадывать некоторые особенности в расположении нуклеотидов и пытаться понять, могли ли зти особенности возникнуть случайно или же они специфически связаны с биологическими свойствами. Известно множество вопросов подобного рода, в частности: является ли случайным понижение частоты встречаемости динуклеотидов CG во фрагментах эукариотической ДНК (Bird, 1980) или как объяснить повышение частоты встречаемости олигонуклеотидов вида YRY(N)kYRY б большинстве известных нуклеотидных последовательностей (Arques,Michel, 1987) и др.

Предыдущая << 1 .. 11 12 13 14 15 16 < 17 > 18 19 20 21 22 23 .. 119 >> Следующая