Научная литература
booksshare.net -> Добавить материал -> Биология -> Александров А.А. -> "Компьютерный анализ генетических текстов" -> 55

Компьютерный анализ генетических текстов - Александров А.А.

Александров А.А., Александров Н.Н., Бородовский М.Ю. Компьютерный анализ генетических текстов — М.:Наука , 1990. — 267 c.
ISBN 5-02-004691-4
Скачать (прямая ссылка): komputerniyanalizgeneticheskihtextov1990.djv
Предыдущая << 1 .. 49 50 51 52 53 54 < 55 > 56 57 58 59 60 61 .. 119 >> Следующая

Автоматизированное составление выборок. В настоящее время в связи с появлением баз данных нуклеотидных последовательностей расширяется возможность автоматизированного составления выборок функциональных сигналов. Нет сомнения в том, что подобная практика будет использоваться со временем все шире и шире. Однако неосторожное использование таблиц особенностей баз данных GENBANK (США), EMBL (ФРГ), "Генэкспресс" (СССР) (см. гл. 7) может приводить к весьма неприятным ошибкам. В качестве предостережения приведем пример, взя-
тый из написанного Ф.Бучером и Э.Трифоновым "Письма к Редактору' (Bucher, Trifonov, 1987).
Речь в этом письме идет о компиляции эукариотических последовательностей, окружающих сайты инициации транскрипции, созданной р.Нуссинов (Nussinov, 1986а) при помощи программы, читающей таблицы сайтов и особенностей базы данных GENBANK. Из 29 последовательностей, идентификаторы которых попали на одну из иллюстраций к статье, авторы сочли 14 непригодными для статистического анализа, который проводила Нуссинов, отмечая следующее: 1) в выборке много дубликатов йяи близкородственных последовательностей; 2) выборка включает в себя большое количество последовательностей кДНК, выровненных относительно случайного 5'конца клона кДНК, а не относительно настоящего 5'конца мРНК. Включение кДНК в компиляцию вообще выглядит проблематичным, поскольку большинство генов содержит интрон на расстоянии менее 200 нуклеотидов от начала мРНК. Более того, одна из упомянутых 14 последовательностей оказалось комплементарна мРНК и была выровнена относительно сайта полиаденилирования.
Даже если выборка составлена правильно, исследователь не застрахован от ошибок, имеющихся в базе данных. О наличии таких ошибок свидетельствует анализ белок-кодирующих участков базы данных EMBL (ФРГ), где встречаются одиночные делеции, вставки, приводящие к изменению кодирующей рамки и т.д. (Stulich, Rohde, 1989). Для выявления и устранения ошибок может применяться сопоставление записей, соответствующих одной последовательности, в независимо заполняющихся базах данных.
4.4. ПРОСТЕЙШИЕ МЕТОДЫ РАСПОЗНАВАНИЯ СИГНАЛОВ
Что такое консенсус-последовательность? Составив выборки последовательностей, несущих функциональный синал, исследователь переходит к построению модели функционального сигнала. Правильное выравнивание во многих случаях известно из эксперимента, поэтому мы начнем с рассмотрения такой ситуации, когда проблема выравнивания уже решена.
Исторически первым методом описания общих черт многих последовательностей стали консенсус-последовательности. Термин "консенсус-последовательность" отражает интуитивное представление исследователя о последовательности, характерной для определенного функционального участка. Обычно под консенсус-последовательностью понимается последовательность, на которую больше всего похож функциональный Участок ДНК. Однако это определение настолько расплывчато и субъективно, что разные исследователи, глядя на один и тот же набор данных, могут написать разные консенсус-последовательности. Берг и Фон Хиппель (Berg, von Hippel, 1987) дают следующее определение консен-
сус-последовательности: "...последовательность, которая в каждой позиции содержит нуклеотид, наиболее часто встречаемый в этой позиции в наборе секвенированных природных последовательностей". Такое определение не лишено недостатков. Во-первых, исследователь пишет на данном месте не просто наиболее часто встречаемый нуклеотид, он пишет нуклеотид только в том случае, если его присутствие в данной позиции кажется исследователю неслучайным. В противном случае он ставит прочерк, означающий, что на данном месте может встретиться любой нуклеотид. Во-вторых, в консенсус-последовательностях допускается появление в одной позиции набора нуклеотидов, например пурина (А или G) или пиримидина (Т или С), нуклеотида, образующего сильно связанную пару нуклеотидов (С или G) или "слабую" пару (А или Т) и т.д.
С учетом высказанных замечаний определение консенсус-последова-тельности можно переформулировать следующим образом: консенсус-пос-ледовательность - это такая последовательность, которая в каждой позиции содержит набор нуклеотидов, причем частота появления нуклеотидов из набора в данной позиции в секвенированных природных последовательностях значимо превосходит ожидаемую. При этом следует иметь в виду, что иногда под консенсус-последовательностью понимают то, что лучше называть строгим консенсусом, а именно последовательность, которая в каждой позиции содержит набор нуклеотидов, хотя бы один раз встречающихся в данной позиции. Последовательность, сформированную так, как предлагают Берг и Фон Хиппель, мы назовем наиболее вероятной. Если следовать сформулированному нами определению консенсус-последовательности, то объяснить тот факт, что разные исследователи пишут разные консенсусы, можно тем, что они пользуются разными критериями статистической значимости наблюдаемых частот встречаемости нуклеотидов в определенной позиции.
Использование матрицы частот встречаемости для поиска функциональных сигналов. Написав консенсус, мы теряем значительную часть информации о значимости присутствия на определенном месте того или иного нуклеотида. Сохранить ее можно, записав информацию о частотах встречаемости нуклеотидов в матрицу позиционных частот встречаемости Flb, где b принимает четыре значения, соответствующие четырем нуклеотидам (A,T,G,С), а 1 соответствует положению на последовательности и изменяется от 1 до L, где L- полная длина участка последовательности. Напимер, в ячейке f3G такой матрицы записано отношение числа нуклеотидов G в положении 3 к числу последовательностей. Пример такой матрицы будет приведен ниже.
Предыдущая << 1 .. 49 50 51 52 53 54 < 55 > 56 57 58 59 60 61 .. 119 >> Следующая

Реклама

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed

Есть, чем поделиться? Отправьте
материал
нам
Авторские права © 2009 BooksShare.
Все права защищены.
Rambler's Top100

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed