Научная литература
booksshare.net -> Добавить материал -> Биология -> Александров А.А. -> "Компьютерный анализ генетических текстов" -> 100

Компьютерный анализ генетических текстов - Александров А.А.

Александров А.А., Александров Н.Н., Бородовский М.Ю. Компьютерный анализ генетических текстов — М.:Наука , 1990. — 267 c.
ISBN 5-02-004691-4
Скачать (прямая ссылка): komputerniyanalizgeneticheskihtextov1990.djv
Предыдущая << 1 .. 94 95 96 97 98 99 < 100 > 101 102 103 104 105 106 .. 119 >> Следующая

уникальное для данной БД слово - ее идентификатор. Объекты БД могут
иметь различные признаки, по которым объекты можно классифицировать
тем или иным способом. Ключом (ключевым словом) называется слово
(обычно из заранее обусловленного словаря), сопоставленное классу объектов. Записи можно отыскать в БД по ключу или комбинации ключей.
При попытке фиксации знаний (что в первую очередь интересует ио следователей) возникает две проблемы: формализация знаний и их форматизация. В информатике традиционный путь накопления знаний - составление фактографических БД.
Основные молекулярно-генетические БД. Объектами молекулярно-генетических БД являются нуклеотидные, аминокислотные последовательности, генетические карты, ферменты, нуклеотидные зонды и др. В настоящее время основными молекулярно-генетическими БД (Bi1 ofsky et al., 1986; Hamm, Cameron, 1986; George et al., 1986) являются:
- EMBL Nucleotide Sequence Data Library (объем свыше 30 млн нуклеотидов, 1989);
- GenBank Genetic Sequence Data Bank (свыше 30 млн нуклеотидов, 1989);
- NBRF-PIR Protein Sequence Data Base (около 2 млн аминокислотных остатков, 1989).
Постепенно пополняется отечественная БД нуклеотидных последовательностей ГенЭкспресс - ВИНИТИ - ИМГ (12 млн нуклеотидов независимо отреферированных последовательностей, 1989).
Представление молекулярно-генетических данных. Трудность задачи формального представления знаний (имеются в виду области молекулярной генетики и молекулярной биологии) состоит в неабсолютной адекватности форм представления знаний в научном языке объектам и явлениям изучаемой предметной области, поскольку только через язык возможна фиксация знаний. Кроме того, мы стремимся предвидеть и вклю-
чить в наши логические представления неизвестные (неоткрытые) явления. Мы должны смириться либо с необходимостью постоянного обновления логических построений, либо с их неполнотой.
В статьях (Lawrence,1986; Friedland et al.,1982; Schneider et al.,1982; Schroeder, Blattner ,1982; Gouy et al.,1984) описаны модели представления нуклеотидных последовательностей с точки зрения молекулярного биолога (и соответствующие языки манипулирования данными ).
Рассмотрим одну из таких моделей данных, принятую с системе ACNUC (Gouy et al., 1984). Центральным понятием является последовательность - участок генома, имеющий одну выделенную функцию. С ним ассоциированы следующие понятия: организм - биологический вид или таксономическая группа любого уровня; категория - ключевые слова (для них используется сетевая модель); тип - один из следующих девяти типов: первичный транскрипт, зрелая мРНК, белок-кодирующий участок, интрон, рРНК, тРНК, мяРНК, последовательность без уникального типа, все другие случаи; автор - авторы публикаций о данной последовательности; ссылка - библиографические ссылки на последовательность; "материнские поля" - известные непрерывные первичные последовательности. Эти понятия могут иметь связанные с ними комментарии. Понятия последовательность, организм, категория, тип, автор являются поисковыми.
Логическая структура БД нуклеотидных последовательностей.
БД EMBL состоит из отдельных записей, каждая из которых относится к одному участку генома или целому геному. Для этого участка хранится нуклеотидная последовательность вместе с ее формализованным описанием. Описание последовательности разбито на несколько полей, в которых описаны различные характеристики данной последовательности.
Таблица имен полей и их объяснение для БД EMBL:
ID - идентификатор (уникальное короткое название).
АС - номер последовательности.
DT - дата ввода или изменения.
DE - описание последовательности, включая все продукты, ею кодируемые.
KW - список ключевых слов.
OS - название организма.
HS - классификация организма.
ОС - название организма-хозяина (для вирусов, фагов и т.п.).
НС - классификация организма-хозяина.
RN,RA,RT,RL - библиографическое описание последовательности.
СС - комментарий.
FH - заголовок таблицы особенностей.
FT - таблица особенностей, список функциональных сайтов, областей на последовательности, продуктов, кодируемых последовательностью.
модификаций нуклеотидов, список мутаций, разногласий вариантов.
SQ - поле статистики последовательности, за которым помещается сама последовательность.
Аналогичные поля имеются и в других БД. В БД GenBank вместо таблицы FT используется таблица сайтов и таблица особенностей.
В таблице сайтов описываются отдельные сайты или границы областей.
В ней приводятся координаты сайтов и их размер. В таблице особенностей отмечаются следующие области на нуклеотидной последовательности: белок-кодирующая область, сигнальный пептид, зрелый пептид, области, кодирующие тРНК и рРНК, мяРНК.
Отметим некоторые проблемы создания БД, не безразличные для пользователя. Информацию для БД извлекают из текущего потока литературы или получают непосредственно от авторов. Достаточно серьезную трудность представляет собой своевременное отслеживание первичных источников (статей, книг, патентов и т.д.), имеющих отношение к теме. В существующие БД последовательности поступают с некоторой задержкой, иногда значительной и, кроме того, до одной трети всех последовательностей не имеет описания.
Предыдущая << 1 .. 94 95 96 97 98 99 < 100 > 101 102 103 104 105 106 .. 119 >> Следующая

Реклама

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed

Есть, чем поделиться? Отправьте
материал
нам
Авторские права © 2009 BooksShare.
Все права защищены.
Rambler's Top100

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed