Научная литература
booksshare.net -> Добавить материал -> Биология -> Александров А.А. -> "Компьютерный анализ генетических текстов" -> 62

Компьютерный анализ генетических текстов - Александров А.А.

Александров А.А., Александров Н.Н., Бородовский М.Ю. Компьютерный анализ генетических текстов — М.:Наука , 1990. — 267 c.
ISBN 5-02-004691-4
Скачать (прямая ссылка): komputerniyanalizgeneticheskihtextov1990.djv
Предыдущая << 1 .. 56 57 58 59 60 61 < 62 > 63 64 65 66 67 68 .. 119 >> Следующая

по всему множеству. Действительно, возрастание DB свидетельствует
об увеличении расстояния между центрами множеств, а значит и об улучшении разделения. Дисперсия D в знаменателе служит объединяющим фактором, не позволяющим элементам обучающей выборки "разбежаться" по всему пространству. Мы не будем останавливаться на технике вычисления разделяющего вектора по такому критерию, а рассмотрим основные результаты этого подхода.
Обучающая выборка была составлена из 155 5' сигнальных последовательностей сплайсинга генов млекопитающих (1Х=155) и 1596 фрагментов гена бета-глобина, не являющихся 5' сайтами сплайсинга (1У«1596). В качестве признаков были выбраны девять нуклеотидов: три на 3' конце экзона и шесть на 5' конце интрона. Таким образом, количество признаков п=9, а число значений каждого признака одинаково и равно 4. Размерность бинарного пространства признаков и соответственно число неизвестных координат разделяющего вектора N=36.
После оптимизации разделения были построены гистограммы распределения весовой функции для каждой группы последовательностей (рис. 4.8). Выбрав в качестве порогового значения число R, минимизирущее число ошибок, довольно просто удалось подсчитать вероятность ошибочной классификации на обучающей выборке. Оказалось, что если для последовательности величина v>R, то с вероятностью 98,2% ее можно счи-
тать 5' сайтом сплайсинга; а если v<R, то с такой же степенью уверенности ее следует отнести к несайтам. Ошибочно классифицированные участки ДНК стали предметом всевозможных гипотез и спекуляций. К сожалению, ничего не сообщается о проверке результатов на выборке не участвующих в обучении последовательностей, что ставит под сомнение притягательное значение числа 98,2% - процента случаев правильной классификации.
Рис. 4.8. Нормированное распределение весовой функции w для 5' сайтов сплайсинга (вверху) и для выборки несайтов (внизу). Отмечены средние значения функции и граничное число R
Персептрон. Для построения разделяющего вектора f в ряде рабст был использован известный метод обучения распознаванию образов -персептрон. Персептрон редко приводил к хорошим результатам, и егс популярность во многом основана на естественности и простоте. По своей сути метод похож на процесс обучения человека: программе показывают по очереди объекты, принадлежащие двум разным классам; если она правильно классифицирует предъявленный объект, ей показывают следующий; если же программа ошибается, ее поправляют, изменяя разделяющий вектор. Так происходит до тех пор, пока программа не научится правильно распознавать все объекты.
Пусть ft - значение разделяющего вектора до предъявления объекта vt + 1. Следующее значение ft4., вычисляем по правилу
ft+vt+1, если (vt + I, ft )<R и vttleX;
f,„= если и vt*ieY; ft в любом другом случае.
Тем самым мы увеличиваем характерные для сайтов и уменьшаем типичные для несайтов координаты разделяющего вектора. Одну и ту же обучающую выборку можно прогонять через алгоритм много раз, до установления подходящих количественных соотношений между координатами вектора f. Обычно полагают R=0 и начальное значение разделяющего вектора fD=0.
Известно, что если разделяющий вектор существует (т.е. множества разделимы), то алгоритм персептрон позволяет найти его за конечное число шагов (Вапник, 1971).
Для анализа нуклеотидных последовательностей впервые использовали персептрон Стормо с соавт. (Stormo et al., 1982,b). Они пытались научиться распознавать места инициации трансляции на обучающей выборке из 124 сайтов и примерно 78 тыс. несайтов. Признаками служили 101 позиция последовательности РНК: от -60 до +40 рибонуклеотида, считая от начала трансляции. Большое количество бинарных признаков (N=404) позволило довольно быстро отыскать разделяющий вектор.
Персептрон безошибочно разделяет обучающую выборку и проверять его надо только на объектах, не принимавших участия в обучении. В работе Стормо и др. для контроля взяли 10 последовательностей тРНК, со средней длиною около 1000 оснований. На контрольной выборке были неправильно классифицированы три сайта и пять несайтов.
Авторы пробовали уменьшить огромный набор признаков, что не улучшило качества обучения, а снижение числа рассматриваемых нуклеотидов до 51 делало разделение обучающей выборки невозможным. Кажется сомнительным влияние столь удаленных оснований на инициацию трансляции, и причину неудач следует объяснить неадекватным выбором признаков. В частности, следует учитывать вторичную структуру РЖ и вариабельность расстояния между блоками существенных рибонуклеотидов.
Модификация персептрона, учитывающая некоторые особенности распознавания сайтов, была применена к промоторам E.coli (Александров, Миронов, 1987). Как мы уже отмечали, близлежащие сайты могут оказывать заметное влияние друг на друга, а значит и эффективность (сила) сайта может значительно варьировать в зависимости от окружающих его последовательностей. Поэтому у нас нет гарантии, что промотор, с которого идет транскрипция в каком-то одном окружении, будет работать в другом окружении, например рядом с гораздо более сильным промотором. Эти соображения заставляют нас отказаться от граничного числа R, которое служило критерием принадлежности исследуемой последовательности к множеству сайтов.
Предыдущая << 1 .. 56 57 58 59 60 61 < 62 > 63 64 65 66 67 68 .. 119 >> Следующая

Реклама

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed

Есть, чем поделиться? Отправьте
материал
нам
Авторские права © 2009 BooksShare.
Все права защищены.
Rambler's Top100

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed