Научная литература
booksshare.net -> Добавить материал -> Биология -> Александров А.А. -> "Компьютерный анализ генетических текстов" -> 61

Компьютерный анализ генетических текстов - Александров А.А.

Александров А.А., Александров Н.Н., Бородовский М.Ю. Компьютерный анализ генетических текстов — М.:Наука , 1990. — 267 c.
ISBN 5-02-004691-4
Скачать (прямая ссылка): komputerniyanalizgeneticheskihtextov1990.djv
Предыдущая << 1 .. 55 56 57 58 59 60 < 61 > 62 63 64 65 66 67 .. 119 >> Следующая

Если каждому признаку из интересующего нас набора поставить в соответствие ось координат, по которой откладывать его значение, то мы получим пространство признаков, а каждой последовательности будет соответствовать точка и вектор, образованный ее координатами.
Рассмотрим в качестве примера сигнал, в котором должны присутствовать или динуклеотид АА или динуклеотид AG; все остальные динуклеотиды в последовательности не являются сайтами. Очевидно, что в качестве признаков здесь следует выбрать две соседние позиции в последовательности. Мы можем утверждать, что встретили наш сигнал, если на i-й позиции последовательности будет стоять нуклеотид А, а на (i+D-й А или G. Пространство признаков представляется здесь плоскостью, образованной двумя координатными осями (рис. 4.7,а). Положение сайтов изменится, если по другому упорядочить нуклеотиды. Так, например, можно добиться разделения, если ввести порядок нуклеотидов CTGA (рис. 4.7,б) влиять на возможность разделения. Чтобы избежать этой неоднозначности, обычно предпочитают описывать объект бинарным набором признаков. Бинарный признак - это признак, который может принимать только два значения: 0 и 1. Любой набор из п дискретных признаков, принимающих к; значений (i-1,...,п), можно просто заменить эквивалентным набором из N бинарных признаков, N=Sk1. В нашем примере бинарные признаки будут говорить о наличии (х,=1) или отсутствии (Xj=0) конкретного нуклеотида в данной позиции. Первые четыре признака отвечают за первую позицию сайта, вторые четыре - за вторую и т.д. Первый признак каждой четверки
Рис. 4.7. Изображение сайтов АА и AG на плоскости признаков По горизонтальной оси отложено значение первой позиции динукле тида; по вертикальной - второй; а - отделить прямой множество сайто от несайтов невозможно; б - другой порядок нуклеотидов сделал разделение возможным
соответствует нуклеотиду А, второй - С, третий - G и четвертый - Т. Сайт АА теперь заменяется вектором х=(1000 1000), a AG - (100Г,
0010).
Что значит разделить множества ? Будем говорить, что множества X и Y разделимы, если найдется такой разделяющий вектор f и действи тельное число R, что для любого х и для любого у выполняются соотно шения: (x-f)>R, (y-f)<R. Обозначим скалярное произведение
(xJ-f) через Vj* и будем называть число v весовой функцией объекта.
В нашем примере разделяющим вектором будет, например, вектор f=( 1000 1010). В самом деле, для сайтов х'=АА и x2=AG vx=2, а
для всех остальных динуклеотидов vY<2. В качестве R можно взять любое число от 1 до 2.
Разделяющий вектор направлен перпендикулярно разделяющей гкперг лоскости и определяет ее ориентацию в пространстве признаков, а граничное число R задает ее положение. Любая точка z разделяющей гиперплоскости удовлетворяет уравнению
Z-f=R.
Рассмотренные ранее статистические методы тоже позволяли получать координаты разделяющего вектора - мы называли их элементами статистической матрицы. Разделение, правда, было обычно нестрогим: некоторые объекты классифицировались ошибочно. Это, конечно, может считаться недостатком, но следует обратить внимание на опасность, поде терегающую нас при стремлении избавиться от ошибок при обучении. Дело в том, что при составлении обучающей выборки может случайно произойти ошибка и тогда наше благое намерение безошибочно разделить все объекты, может привести к искаженной модели сайта. А при сложных методиках работы с нуклеиновыми кислотами, требующих учета множества косвенных факторов и проведения многостадийных реакций, наивно рассчитывать на получение большого количества информации, достоверной не все 100%. Поэтому полезно познакомиться с методами дискриминантного анализа, разделяющими обучающую выборку оптимальным (в некотором смысле) образом, но допускающими небольшое количество ошибок.
Оптимизация разделения. Наглядным и привлекательным методом оптимизации разделения объектов воспользовался Иида для распознавания 5' сигналов сплайсинга (Iida, 1987). Метод не требует полного разделения множеств X и Y, допуская небольшое перекрытие распределений Vх и vY. Чтобы найти разделяющий вектор f, запишем несложные статистические соотношения.
Среднее значение v внутри каждого множества и по всей обучающе?, выборке вычисляется обычным способом:
<vx> = — L v.x ; <vY>= — 2 v,Y ;
lx i=l 1 1Y i=l
<V> = - ( lv<Vx> + lv<VY>).
1
разброс значений v по всей обучающей выборке характеризуется дисперсией
1 ^Х ]Y
D= - ( S (vix-<vx>)2 + L (v1Y-<vY> )2).
1 i=l i-1
Отличие средних значений весовой функции элементов разных групп ("межгрупповая" дисперсия) можно описать величиной
1
DB= - (lx(<vx>-<v>)2+1y( <vy>-<v>)2).
1
В качестве критерия оптимальности разделения Иида взял отношение DB/D. Разделяющий вектор f вычисляется из условия достижения максимума отношения межгрупповой дисперсии к дисперсии весовой функции
Предыдущая << 1 .. 55 56 57 58 59 60 < 61 > 62 63 64 65 66 67 .. 119 >> Следующая

Реклама

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed

Есть, чем поделиться? Отправьте
материал
нам
Авторские права © 2009 BooksShare.
Все права защищены.
Rambler's Top100

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed