Научная литература
booksshare.net -> Добавить материал -> Биология -> Александров А.А. -> "Компьютерный анализ генетических текстов" -> 68

Компьютерный анализ генетических текстов - Александров А.А.

Александров А.А., Александров Н.Н., Бородовский М.Ю. Компьютерный анализ генетических текстов — М.:Наука , 1990. — 267 c.
ISBN 5-02-004691-4
Скачать (прямая ссылка): komputerniyanalizgeneticheskihtextov1990.djv
Предыдущая << 1 .. 62 63 64 65 66 67 < 68 > 69 70 71 72 73 74 .. 119 >> Следующая

4.7. ПРОВЕРКА ПРОГРАММ РАСПОЗНАВАНИЯ
Разберем проблемы, связанные с тестированием программ распознавания. Если для решения одной задачи имеется несколько различных алгоритмов, возникает желание выбрать из них наилучший. По нашему мнению, не существует универсального критерия качества, и сравнение различных алгоритмов необходимо проводить с учетом той задачи, для решения которой мы собираемся их применять. При зтом следует иметь в виду, что при обучении разных алгоритмов часто используются разные выборки и один алгоритм может давать лучшие результаты, чем другой, просто потому, что его лучше "учили". Граничное значение распознающей функции, отделяющее сайты от несайтов, при сравнении алгоритмов должно формироваться по одинаковым принципам; в противном случае результат сравнения будет плохо интерпретируем.
При проверке, так же как и при обучении программ, необходимо уделять самое пристальное внимание формированию выборок сайтов и несайтов. Для обучения программ и получения чисел, характеризующих качество распознавания, необходимо выбирать правильное соотношение сайтов и несайтов. Что означает ошибка 37%, полученная в работе Голованова? Действительно ли взяв 100 белок-кодирующих последовательностей и применив к ним программу распознавания RBS, мы у 37 из них получим неправильное место инициации трансляции?
Взглянем на проблему подробнее. В качестве не-RBS Стормо и Голованов выбирали все ATG кодоны, тогда как нас могут интересовать только те, которые находятся в правильной рамке считывания. Если мы уберем квази-RBS, находящиеся в других рамках считывания, ошибка при той же границе RBS : не-RBS может уменьшиться в 3 раза. (Заметим, что мы тем самым изменили алгоритм распозне ния.) Мы можем по другим соображениям (например, приблизительная молекулярная масса бе*-
ка) отсеять еще часть потенциальных инициирующих кодонов, и вероятность ошибки распознавания еще уменьшится. То же и для промоторов: вероятность ошибки в локализации промотора во фрагменте размером 1000 нуклеотидов гораздо вше, чем в 100-нуклеотидном фрагменте. По -этому не следует абсолютизировать те характеристики алгоритма распознавания, которые приводят авторы алгоритма: все эти характеристики нужно определять для своей конкретной задачи.
Последовательности-несайты желательно брать иэ того класса последовательностей, с которым будут сравниваться сайты. К примеру, при построении модели промотора может быть разумно компоновать множество непромоторов на основе участков, окружающих промотор, относительно которых есть основания полагать, что промоторов сравнимой эффективности в них больше нет. При этом каждому промотору будет соответствовать свой набор непромоторов.
Наибольшие проблемы вызывает проверка алгоритмов распознавания в тех случаях, когда выборка мала. При этом иногда используют так называемую процедуру "джзкнайф": обучение проводят по всем последовательностям, кроме одной, и затем классифицируют зту одну последовательность, определяя, попадает она в класс сайтов или несайтов. Так поступают со всеми последовательностями, и число ошибок классификации служит критерием качества распознавания. Более предпочтительным, однако, кажется другой подход, при котором выборка сайтов (и несайтов, если она нужна для обучения) разбивается на две, и одна из частей используется при обучении, а другая - при проверке.
В качестве выборки несайтов нельзя использовать случайную последовательность, сгенерированную на ЭВМ. Генератор случайной последовательности вполне закономерно производит время от времени последовательности, сколь угодно похожие на любую наперед заданную последовательность, в том числе и на сайт. Поэтому нет оснований считать, что все сгенерированные последовательности не имеют никакого отношения к сайтам. Тем не менее случайные последовательности могут быть использованы при проверке программ распознавания образов. Они могут дать информацию,о том, как часто сигнал, который мы научились узнавать, встречается в случайной последовательности и в некоторых случаях (например, если модель строилась по сайтам и создать выборку несайтов не представляется возможным) выбрать некоторое начальное значение функционала, отделяющее сайты от несайтов. Граничное значение, к примеру, можно выбрать таким, чтобы частота встречаемости функционального сигнала в случайной последовательности была равна частоте встречаемости этого сигнала в природных последовательностях. Информация, получаемая при помощи поиска сайтов на случайных последовательностях, в большинстве случаев носит иллюстративный характер.
Главное, чего бы мы хотели достичь в четвертой главе, - это соз дать у читателя отчетливое представление о неразрывной связи трех проблем распознавания: выбора модели сигнала, вычисления параметров модели и множественного выравнивания. В большинстве работ эти задачи рассматривались как независимые, и решение каждой из них в отдельности (при условии, что две другие уже решены) сейчас не вызывает больших трудностей. Но до сих пор не ясно, какая из проблем должна решаться первой.
Предыдущая << 1 .. 62 63 64 65 66 67 < 68 > 69 70 71 72 73 74 .. 119 >> Следующая

Реклама

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed

Есть, чем поделиться? Отправьте
материал
нам
Авторские права © 2009 BooksShare.
Все права защищены.
Rambler's Top100

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed