Научная литература
booksshare.net -> Добавить материал -> Биология -> Александров А.А. -> "Компьютерный анализ генетических текстов" -> 54

Компьютерный анализ генетических текстов - Александров А.А.

Александров А.А., Александров Н.Н., Бородовский М.Ю. Компьютерный анализ генетических текстов — М.:Наука , 1990. — 267 c.
ISBN 5-02-004691-4
Скачать (прямая ссылка): komputerniyanalizgeneticheskihtextov1990.djv
Предыдущая << 1 .. 48 49 50 51 52 53 < 54 > 55 56 57 58 59 60 .. 119 >> Следующая

4.1. Задача выбора оптимальных параметров выбранной модели с очевидностью относится к задачам оптимизации, и указанная стрелка отражает то, что зачастую ищется не глобальный, а локальный оптимум и используются при этом итеративные алгоритмы.
Проверка модели. После вычисления оптимальных параметров модели должна быть проведена оценка ее предсказательной силы. Эта оценка включает в себя вычисление вероятностей ошибок разноге рода, а также сравнение вероятностей ошибок для альтернативных моделей. Вычисления вероятностей ошибок могут быть проведены теоретически, а может быть устроен экзамен моделей по распознаванию последовательностей, не участвовавших в обучении.
Информация к размышлению о функциональных сигналах. Часто, говоря о выборке последовательностей, подразумевают собрание только последовательностей, однако следует иметь в виду, что сопутствующая информация тоже чрезвычайно важна, хотя иногда и не фигурирует явно. В компиляции промоторов E.coli (Harley, Reynolds, 1987) помимо самих последовательностей присутствует информация о системе транскрипции (in vivo/in vitro), о месте инициации транскрипции, о методах, которыми это место было установлено, об эффективности действия, о реферативных источниках. Вся совокупность систематизированных данных -выборка - и составляет информацию для совместного размышления человека и компьютера о функциональном сигнале.
Ниже перечислены основные соображения, которые принимаются в расчет при построении выборки.
1. Достоверность данных, зависящая от набора методов, примененных при выявлении сайта и степени подтвержденное™ информации, полученной разными методами. Для адекватной интерпретации данных необходимо знание методов, применявшихся для ее исследования.
2. Размеры участка нуклеотидной последовательности, содержащего функциональный сигнал. Они выбираются исходя из экспериментальных сведений о сигнале и его биологической природе с учетом требований программ распознавания.
3. Условия протекания процесса, в котором принимает участие сайт. Эти условия должны быть по возможности одинаковы. Они включают в себя организм или набор организмов, в которых выявлен изучаемый сигнал, стадию развития, ткань, ферментативную систему и т.д. Лучше не смешивать в одной выборке последовательности из разных организмов. Пожалуй, единственный надежный критерий для выбора тех организмов, в которых функциональные сигналы взаимозаменяемы, - возможность давать полноценное потомство при скрещивании. В этом случае объединение последовательностей в одной выборке может рассматриваться как обоснованное Природой. Во всех остальных случаях исследователю нужно постараться обосновать решение об объединении последовательностей самому.
4. Особую ценность имеет информация о численном соотношении функциональных активностей сайтов.
5. Статистика набранных функциональных сигналов должна быть достаточна для того, чтобы определить, какие же именно признаки превращают последовательность в функциональный сигнал, а значит объем выборки должен быть по возможности велик.
6. При исследовании сигнала статистическими методами выборка не
должна содержать близкородственных последовательностей, т.е. должна быть представительной. Если, к примеру, в выборке будут широко представлены многочисленные мутанты некоторой последовательности, то результирующий образ функционального сигнала может оказаться близок не к сайту, типичному для генома в целом, а к тому сайту, который чод других встречался в компиляции. Некоторые методы, например дискриминантный анализ, допускают работу и с непредставительными выборками.
7. При исследовании позиционно-зависимой статистики последовательности в выборке должны быть правильно выровнены друг относительно друга. Основанием для выравнивания в первую очередь является экспериментальная информация о сигнале, такая как место инициации транскрипции или трансляции, участок ДНК, защищаемый связанным с на* белком от действия нуклеаз, два места разрезания РНК при вырезании из нее интрона (одно соответствует 5' концу интрона, а другое 3' концу) и т.д. В некоторых случаях выравнивание практически однозначно следует из экспериментальных данных, в других случаях его приходится искать с помощью программ.
Сайты и несайты. Существуют разные методы построения моделей функциональных сигналов, для одних из них требуется выборка только сайтов, для других дополнительно нужны несайты. К примеру, один из путей исследования последовательностей, несущих функциональный сигнал - это сайт-специфический мутагенез в сочетании с тестом на функциональную активность. Логика рассуждений при рассмотрении результатов такова: мы поменяли нуклеотид в определенном положении, произвели делецию или вставку, и последовательность потеряла (или сохранила) свою функциональную активность. Фактически при этом исследователь накапливает информацию не только о том, какие последовательности несут функциональный сигнал, но и о том, какие последовательности функционального сигнала не несут, и на этой основе делает свои выводы. Следует отметить, что хотя на этапе построения модели выборка несайтов нужна не всегда, для качественной проверки она бывает нужна практически всегда. Построить удовлетворительную для этой цели выборку несайтов иногда оказывается много труднее, чем создать выборку сайтов. Подробнее на создании таких выборок мы остановимся в разделе "Проверка программ распознавания".
Предыдущая << 1 .. 48 49 50 51 52 53 < 54 > 55 56 57 58 59 60 .. 119 >> Следующая

Реклама

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed

Есть, чем поделиться? Отправьте
материал
нам
Авторские права © 2009 BooksShare.
Все права защищены.
Rambler's Top100

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed