Научная литература
booksshare.net -> Добавить материал -> Биология -> Александров А.А. -> "Компьютерный анализ генетических текстов" -> 53

Компьютерный анализ генетических текстов - Александров А.А.

Александров А.А., Александров Н.Н., Бородовский М.Ю. Компьютерный анализ генетических текстов — М.:Наука , 1990. — 267 c.
ISBN 5-02-004691-4
Скачать (прямая ссылка): komputerniyanalizgeneticheskihtextov1990.djv
Предыдущая << 1 .. 47 48 49 50 51 52 < 53 > 54 55 56 57 58 59 .. 119 >> Следующая

О, если предъявлена несигнальная последовательность. Такая постановка задачи типична для программ распознавания образов. Настоящая глава посвящена в основном описанию некоторых общих подходов к проектированию программ, распознающих функциональные сигналы.
Накопленный опыт исследования функциональных сигналов позволяет говорить о сложившейся методологии построения их поискового образа, проиллюстрированной на рис.4.1. (Термин "поисковый образ" введен здесь для обозначения совокупности модели функционального сигнала и конкретного значения параметров модели, речь о которых пойдет ниже.) Начинается этот процесс со сбора информации о функциональных сигналах - составления выборки.
СОСТАВЛЕНИЕ ВЫБОРКИ (НАЧАЛЬНОЕ ВЫРАВНИВАНИЕ)
I
v
--------------> ВЫБ0Р МОДЕЛИ
I
v
у-> ВЫЧИСЛЕНИЕ ПАРАМЕТРОВ МОДЕЛИ
— МНОЖЕСТВЕННОЕ ВЫРАВНИВАНИЕ
v
------ СРАВНЕНИЕ С ДРУГИМИ МОДЕЛЯМИ
Рис. 4.1. Стратегия распознавания. Пояснения в тсксте 118
Составление выборки. Обычно последовательность биополимера, несущая функциональный сигнал, исследуется рядом экспериментальных методов, каждый из которых дает свою специфическую информацию. Для того чтобы понять, что же отличает последовательности, несущие функциональный сигнал, от всех остальных, необходимо собрать 2 систематизировать большое количество экспериментальных данных. Исследование функциональных сигналов в качестве одного из своих этапов содержит составление сборников, содержащих последовательности и другую информацию, существенную для исследователя. Такой сборник мы будем называть выборкой или компиляцией.
Модели функциональных сигналов. Второй этап - построение модели, - пожалуй, наиболее важный в процессе исследования функционального сигнала. Построение начинается уже в ходе накопления экспериментальной информации.
Как мы видели ранее, каждый функциональный сигнал характеризуется некоторым набором признаков, например типом нуклеотидов в определенных позициях на последовательности, инвертированными повторами, способными образовать шпильки в РНК, нуклеотидным составом участков ДНК и др. Набор таких признаков, характерный для определенного функционального сигнала, и алгоритм их поиска мы будем называть поисковой моделью (или просто моделью) функционального сигнала. Поисковая модель базируется на физической модели процесса. При разработке поисковой модели необходимо учитывать схему процесса, в котором принимает участие функциональный сигнал, предположения о важных участках взаимодействия нуклеиновых кислот и белков, о структуре ДНК или РНК в функционально активном комплексе и т.д. Некоторые примеры моделей были приведены в разделе 4.1.
Вычисление параметров модели. Формулировка поисковой модели включает определение набора характерных для сигнала признаков и выбор алгоритма вычисления параметров модели. Можно представить себе ситуацию таким образом, что параметры модели используются для оценки конкретных констант взаимодействия в построенной схеме процесса. В простейшем случае параметры служат для выяснения того, лежит ли константа в диапазоне значений, позволяющих сказать, что "сигнал есть", или же в диапазоне, означающем "сигнала нет".
Для вычисления параметров модели применяются алгоритмы, типичные Для программ распознавания образов. Это статистические алгоритмы, описанные в гл. 2 и 3 и в разделе 4.3, алгоритмы дискриминантного анализа, представленные в 4.4, получающие широкую популярность алгоритмы распознавания образов с использованием нейронных сетей (Hopfield, 1982). Процедуру выбора оптимальных параметров модели Можно рассматривать как процесс обучения программы распознавания об-
Обычно на выходе программы распознавания бывает не два возможнь::< состояния - сигнал/несигнал, а число, называемое дискриминирующим числом. На обучающей выборке сайтов это число принимает значения в одном диапазоне величин, на выборке несайтов - в другом. Часто эти диапазоны перекрываются, и тогда надежно отличить сайты от несайтов не удается. Такое поведение программ, возможно, соответствует физической реальности: количество сайтов с промежуточными между сайтами и несайтами константами взаимодействия может оказаться велико (см., например, Berg, Von Hippel, 1987).
Множественное выравнивание. Третий этап
- множественное выравнивание - выявляет позиции, связанные с признаками функционального сигнала. Напомним, что в гл. 1 выравниванием называлась некоторая расстановка вставок и делеций на последовательностях. В случае многих последовательностей, несущих функциональней сигнал, выравнивание проводится с целью выстроить друг под другом важные для функционирования последовательности участки, играющие одинаковую роль в узнавании нуклеиновой кислоты белком. Если бы мы знали детальную молекулярную картину взаимодействия в функциональном комплексе, то не возникало бы сомнений в том, какие участки последовательностей, несущих один и тот же функциональный сигнал, взаимодействуют с определенным участком белка или участвуют в других специфических взаимодействиях, и выравнивание могло бы быть проведено однозначно. На практике имеющиеся экспериментальные сведения о сайтах ограничены, и иногда приходится выявлять аналогичные участки е функциональных сигналах уже на основании самой последовательности. Выравнивание при этом оказывается предположительным и зависит от модели и конкретных значений ее параметров. Изменение параметров может привести к изменению выравнивания, что и отражено стрелкой на рис.
Предыдущая << 1 .. 47 48 49 50 51 52 < 53 > 54 55 56 57 58 59 .. 119 >> Следующая

Реклама

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed

Есть, чем поделиться? Отправьте
материал
нам
Авторские права © 2009 BooksShare.
Все права защищены.
Rambler's Top100

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed