Научная литература
booksshare.net -> Добавить материал -> Биология -> Александров А.А. -> "Компьютерный анализ генетических текстов" -> 60

Компьютерный анализ генетических текстов - Александров А.А.

Александров А.А., Александров Н.Н., Бородовский М.Ю. Компьютерный анализ генетических текстов — М.:Наука , 1990. — 267 c.
ISBN 5-02-004691-4
Скачать (прямая ссылка): komputerniyanalizgeneticheskihtextov1990.djv
Предыдущая << 1 .. 54 55 56 57 58 59 < 60 > 61 62 63 64 65 66 .. 119 >> Следующая

ПОЛОШЕНИЕ HR ПОСЛЕДОВПТЕЛЬНОСТИ, П.Н. (!)
где Fbl, как и выше, частота встречаемости нуклеотида b в позиции 1.
Позиция сайта, в которой всегда обнаруживается один и тот же нуклеотид, согласно этой формуле, содержит 2 бит информации, позиция с равной встречаемостью всех четырех нуклеотидов - 0 бит. Позиционно-зависимое количество информации, вычисленное для сайтов связывания рибосомы, приведено на рис.4.5. Самый большой пик на этом рисунке соответствует инициирующему кодону, меньшего размера пик вблизи -10 - области Шайна - Дальгарно.
Просуммировав информацию по всем позициям сайта, можнс оценить общее количество информации, которое содержит функциональный сигнал, и ожидаемую частоту встречаемости сигнала в случайной последовательности. Как это ни удивительно, наблюдаемые частоты встречаемости функциональных сигналов в геноме для большинства сигналов оказываются близки к ожидаемым теоретически для случайной последовательности (Schneider et al., 1986).
4.5. МЕТОДЫ ДИСКРИМИНАНТНОГО АНАЛИЗА И РАСПОЗНАВАНИЯ ОБРАЗОВ
Объекты и их признаки. Некоторые хорошо разработанные методы дискриминантного анализа и распознавания образов были применены для исследования генетических сигналов. Дискриминантный анализ призван разделять на заданные группы объекты с известными признаками. Признакам можно приписать некоторые значения, зависящие от объекта. Так, если признаком является цвет, то он может быть зеленым, желтым и т.д.; если при распознавании объекта учитывать его размеры, то значения этого признака будут укладываться в определенный диапазон действительных положительных чисел. Таким образом, мы можем каждый объект представить в виде вектора, т.е. набора величин (признаков), принимающих некоторые значения.
Важным частным случаем является разделение объектов на две группы. Например, если в качестве объектов рассматривать фрагменты нуклеотидной последовательности, то в первую группу могут входить фрагменты, выполняющие определенную функцию (сайты), а во вторую - заведомо не являющиеся сайтами (несайты). Именно эту задачу разделения Двух групп объектов мы и будем рассматривать в дальнейшем.
Дискриминантный анализ имеет наглядную геометрическую интерпретацию. Построим пространство с координатными осями, по которым откладываются значения соответствующих им признаков. Это пространство обладает размерностью, равной количеству признаков. Каждая точка этого пространства соответствует некоторому объекту и, наоборот, любому объекту можно поставить в соответствие точку с координатами, равными значениям признаков данного объекта. Разделить два класса объектов означает провести между ними некоторую поверхность.
На рис. 4.6 изображено двумерное пространство признаков, в котором удалось разделить прямой два множества объектов. Когда мы имее:.< дело с гораздо большим набором признаков, соответственно увеличивается размерность пространства и множества разделяются не прямой линией, а гиперплоскостью. На рис. 4.7, а) приведена одна из ситуаций, когда не удается разделить множества одной гиперплоскостью. Впрочем, относительное положение объектов может стать совершенно иным, если изменить набор используемых признаков, т.е. перейти в другое пространство. Выбор пространства, в котором множества разделяются наилучшим образом, тоже входит в круг задач дискриминантного анализа.
Для изложения дискриминантного анализа как метода распознавания функциональных сигналов далее будем обозначать: множество объектов первой группы (сайты) - X; множество объектов второй группы (несайты) - Y; j-й элемент первого множества xJ; значение i-ro признака у объекта xj - xJ,; аналогично для второго множества - yJ, yJt; число признаков - п; число значений i-ro признака - к,;
число объектов первой группы в обучающей выборке (сайты) - lt;
число объектов второй группы в обучающей выборке (несайты) - 12;
общее число объектов - 1=1,+12.
Важно помнить, что объекты представляют собой векторные величины.
Как превратить последовательность в вектор. Чтобы воспользоваться методами дискриминантного анализа при работе с нуклеотидными последовательностями, мы должны преобразовать каждую последовательность в точку (вектор в пространстве признаков). Ранее мы видели, что признаками могут быть нуклеотиды на определенных позициях, расстояние между блоками нуклеотидов, энергия вторичной структуры, А-Т состав и т.д. Каждый признак может принимать значение из некоторого спектра: позиция (нуклеотид) на последовательности ДНК, например,
обладает дискретным спектром значений - А, С, G, Т; энергия вторич-
Р и с. 4.6. Два множества объектов (X и Y) разделены прямой в двумерном пространстве признаков. С увеличением количества признаков плоскость превращается в пространство с размерностью, равной числу признаков, а прямая - в разделяющую гиперплоскость
ной структуры имеет непрерывный спектр вещественных чисел; расстояние между блоками нуклеотидов измеряется целыми числами. Значения признаков можно всегда сделать конечными и дискретными, разбив весь спектр возможных значений на интервалы.
Предыдущая << 1 .. 54 55 56 57 58 59 < 60 > 61 62 63 64 65 66 .. 119 >> Следующая

Реклама

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed

Есть, чем поделиться? Отправьте
материал
нам
Авторские права © 2009 BooksShare.
Все права защищены.
Rambler's Top100

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed