Научная литература
booksshare.net -> Добавить материал -> Физика -> Аветисян Р.Д. -> "Теоретические основы информатики" -> 58

Теоретические основы информатики - Аветисян Р.Д.

Аветисян Р.Д., Аветисян Д.О. Теоретические основы информатики — Телеком , 2003. — 170 c.
Скачать (прямая ссылка): teoriticheskieosnoviinformatiki2003.pdf
Предыдущая << 1 .. 52 53 54 55 56 57 < 58 > 59 60 61 62 63 .. 64 >> Следующая


Интуиция же подсказывает, что наличие в памяти ЭВМ достаточно большого числа вторичных документов - носителей определенных интеллектуальных усилий их авторов, индексаторов, аналитиков и т.п. -создает реальные предпосылки для использования в процессе поиска интеллектуального потенциала, содержащегося в базах данных. Естественно, что чем большее число документов содержится в базе данных, тем, при прочих равных условиях, большими должны быть аналитические возможности этих систем.

Представляется, например, вполне резонным поручить ЭВМ, чтобы она, после обычного поиска документов, релевантных пользовательскому запросу (независимо от того, подвергся ли этот запрос предварительному терминологическому наращиванию или нет), сама извлекла бы из различных поисковых полей лексические единицы, осуществила

147

ГЛАВА 5 бы их ранжирование по степени соответствия смыслу запроса и на основе такого анализа скомпоновала бы своеобразный микротезаурус, ориентированный на обслуживание конкретно сложившейся поисковой ситуации "конкретный запрос - конкретная база данных". При такой постановке вопроса лексические единицы могут быть извлечены из логических полей, о существовании которых пользователь может и не знать. Например, в этом микротезаурусе могут фигурировать слова английского языка, независимо от того, владеет ли пользователь английским языком или нет. В другом случае в этом микротезаурусе могут фигурировать индексы УДК, независимо от того, знает или нет пользователь о существовании такого информационно-поискового языка. С некоторыми оговорками составление этих микротезаурусов может рассматриваться как некий эквивалент автоматического перевода пользовательского запроса на те или иные языки, в том числе и иностранные. Следует особо подчеркнуть, что такой перевод будет осуществляться без помощи каких-либо словарей (например, англорусских или русско-английских), а лишь на основе той информации, которая содержится в самой базе данных. Естественно, что степень соответствия этих микротезаурусов, их адекватность конкретно сложившимся поисковым ситуациям будет находиться в прямой зависимости от того, насколько удачно будет осуществлено ранжирование различных лексических единиц по степени их соответствия пользовательским запросам. Для выработки формальной количественной меры для такого ранжирования будем пользоваться доказанной нами теоремой транзитивности (случай «-мерного единичного куба).

Пусть на множестве документов N осуществлктся обычный поиск документов, релевантных некоторому запросу. Обозначим искомое подмножество документов через Z. Естественно, что при работе в реальных условиях АСДП выдаст пользователю некоторое подмножество документов Z0, в общем случае не совпадающее с подмножеством Z. С каждой /-Й лексической единицей, подлежащей ранжированию по степени соответствия ее семантики семантике запроса, будем связывать по два подмножества, а именно, подмножество документов /о, содержащих данную лексическую единицу, и подмножество документов /, связанных с /-м термином на семантическом уровне, вне зависимости от факта присутствия в этих документах рассматриваемого термина.

Если бы имело место взаимно однозначное соответствие семантических категорий их языковым формулировкам, то подмножества Z0 и /0 в точности совпали бы с подмножествами соответственно Z и /, а значения коэффициентов корреляций /-(Z0, Z) и ; (/0, /) между этими подмножествами оказались бы равными единице. В реальных же условиях такое соответствие не имеет места, эти подмножества не совпадают, а значения r(Z0, Z) и ; (/0, /) оказываются меньшими единицы. Поскольку в процессе ранжировки терминов речь идет о конкретном запросе, то

148 можно считать, что подмножество Z0 нам задано. Известно также, что существует некоторое конкретное подмножество Z с конкретным значением r(Zt), Z), но само это подмножество Z, как и значение / (Z0, Z), нам не заданы. Из определения коэффициента линейной корреляции можно судить о положительности значения /-(Z0, Z), так как отрицательные его значения означали бы, что качество работы АСДП хуже случайной выборки. Также к абсурдному результату мы пришли бы, допустив возможность отрицательных значений /•(/„, /).

Пусть требуется определить, какому из терминов / и ./ следует отдать предпочтение при их ранжировке по степени соответствия смыслу запроса. Поскольку подмножества Z0, I0 и V0 считаются заданными, то согласно теореме транзитивности имеем:

M(r(l, Z)) = r(/0,/)r(/0, Z0)r(Z0,Z), (6.43)

M(r(J,Z)) = r(J,J0)r(J0,Z0)r(Z0,Z). (6.43а)

В приведенных формулах нам известны лишь значения / (/0, Z0) и /•(./0, Z0), а в качестве формальной меры соответствия данного термина пользовательскому запросу следовало бы располагать если не конкретными значениями /•(/, Z) и / (./, Z), то хотя бы значениями их математических ожиданий, т.е. m(r(l, z)) и m(r(j, z)).

Априори мы не располагаем никакой информацией не только о конкретных значениях / (/0, Г) и r(J0,./), но и о характере распределения этих случайных величин. Естественно, однако, полагать, что эти значения меняются в довольно узком диапазоне вокруг некоего среднего значения rL, характерного для каждого естественного и/или искусственного языка. Сами значения rL, по крайней мере для естественных языков, весьма близки к единице. Исходя из вышеизложенного, с определенными оговорками можно принять, что
Предыдущая << 1 .. 52 53 54 55 56 57 < 58 > 59 60 61 62 63 .. 64 >> Следующая

Реклама

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed

Есть, чем поделиться? Отправьте
материал
нам
Авторские права © 2009 BooksShare.
Все права защищены.
Rambler's Top100

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed