Научная литература
booksshare.net -> Добавить материал -> Биология -> Александров А.А. -> "Компьютерный анализ генетических текстов" -> 59

Компьютерный анализ генетических текстов - Александров А.А.

Александров А.А., Александров Н.Н., Бородовский М.Ю. Компьютерный анализ генетических текстов — М.:Наука , 1990. — 267 c.
ISBN 5-02-004691-4
Скачать (прямая ссылка): komputerniyanalizgeneticheskihtextov1990.djv
Предыдущая << 1 .. 53 54 55 56 57 58 < 59 > 60 61 62 63 64 65 .. 119 >> Следующая

ведение количественной меры эффективности функционального сигнала представляет собой достаточно большую проблему. Для многих функциональных сигналов используется несколько экспериментальных процедур -тестов на функциональную активность, каждой процедуре соответствует своя числовая величина - эффективность функционального сигнала, характеризующая конкретную последовательность, предъявленную тест-системе. Если выстраивать сайты в порядке возрастания их эффективности в одном тесте, то далеко не всегда порядок расположения сайтов будет сохраняться при изменении теста или экспериментальных условий. Однако наличие таких данных побуждает исследователей каким-либо образом учесть их при составлении программы распознавания функциональных сигналов.
Описанные выше статистические методы не предполагали знания эффективности функционального сигнала, а в том случае, когда эффективность была известна, она не могла быть адекватно учтена алгоритмом построения матрицы весов. Оптимальное решение задачи определения матрицы штрафов/премий при наличии достаточного количества данных об эффективности функционального сигнала было продемонстрировано в работе Стормо и др. (Stormo et al., 1986). Предположение, выполнение которого необходимо для построения матрицы при помощи метода множественной регрессии, состоит в том, что измеренная величина эффективности некоторого функционального сигнала является арифметической суммой эффектов, связанных с отдельными признаками.
Выполнение указанного предположения требует очень тщательного выбора шкалы эффективностей - ведь мы можем использовать как саму экспериментально измеренную величину (например, константу связывания), так и функцию от нее (например, логарифм). Далеко не очевидно, что экспериментально измеренная величина или ее функция отражают аддитивную связь эффектов отдельных признаков. Клетка - слишком сложный организм и в нем присутствует много механизмов регуляции, изменяющих наблюдаемый эффект. Даже в случае измерений, проведенных in vitro, и выборе разумной функции, нет уверенности в аддитивности эффектов признаков. Быть может, правильнее использовать данные об эффективности функционального сигнала для ранжирования сигналов в порядке возрастания эффективности и требовать от алгоритмов распознавания не максимально точного количественного предсказания эффективности, а правильного порядка следования сигналов в одном ряду (или в нескольких рядах, если исследования были проведены в разных работах).
Если принять предположение об аддитивном вкладе признаков в эффективность, то можно написать m уравнений (т - число сайтов с измеренной эффективностью) с п неизвестными, от которых зависит эффективность сайта. Если число неизвестных меньше числа уравнений, то Для каждого параметра может быть вычислено значение, наилучшим обра-
зом (по критерию наименьших квадратов) приближающее измеренное зна чение эффективности. Таким образом, выявляются наиболее информативные позиции сайта и оценивается вклад каждого из признаков в распознавание. Естественно, что применяться такой подход может только к хорошо исследованным функциональным сигналам, для которых измерены эффективности более чем 3N+1 сайтов, где N - число позиций мононуклеотидов, от которых зависит эффективность сайта. Каждой позиции мононуклеотида соответствует четыре возможных значения, однако вклад о эффективность одного из них (например, Т) приравнивается нулю и число неизвестных связанных с одной позицией сайта оказывается равно 3, а одно неизвестное слагаемое соответствует эффективности последовательности, состоящей из одних Т. Может оказаться, что эффективность функционального сигнала зависит не только от мононуклеотидов. В обсуждаемой схеме можно учесть практически любые признаки, однако с ростом количества признаков растет и число переменных. Если в качестве признаков взять присутствие динуклеотида, то тогда на одну позицию придется уже не 3, а 15 неизвестных, что потребует еще большего числа сайтов с измеренными эффективностями.
Количество информации в функциональном сигнале. Подсчет количества информации, соответствующего определенной позиции функционального сигнала, служит хорошей иллюстрацией к процессу статистического исследования сигнала и выявлению значимых позиций.
Количественная мера информации, присутствующей в функциональном сигнале, основанная на статистическом рассмотрении сигналов, была предложена Шнайдером и др. (Schneider et al., 1986). Количество информации в одной позиции сигнала для случая одинаковых априорных частот встречаемости нуклеотидов, равных 1/4, выглядит следующим образом:
RSeq»enc«(D - 2 + 2 FbI10gaFbI. (4-6)
b
Рис. 4.5. Информационное содержание сайта связывания с рибосомой (Schneider et al.,
1986)
По оси абсцисс отложен номер позиции нуклеотида в сайте
(позиция 0 соответствует первому нуклеотиду инициирующего кодона); по оси ординат -информационное содержание этой позиции в битах
-гв -10 0 10
Предыдущая << 1 .. 53 54 55 56 57 58 < 59 > 60 61 62 63 64 65 .. 119 >> Следующая

Реклама

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed

Есть, чем поделиться? Отправьте
материал
нам
Авторские права © 2009 BooksShare.
Все права защищены.
Rambler's Top100

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed