booksshare.net -> Добавить материал -> Физика -> Аветисян Р.Д. -> "Теоретические основы информатики" -> 43

Теоретические основы информатики - Аветисян Р.Д.

Аветисян Р.Д., Аветисян Д.О. Теоретические основы информатики — Телеком , 2003. — 170 c.
Скачать (прямая ссылка): teoriticheskieosnoviinformatiki2003.pdf

Предыдущая << 1 .. 37 38 39 40 41 42 < 43 > 44 45 46 47 48 49 .. 64 >> Следующая

В случае, когда

Xi=X2=I, (5.11)

имеют место

Н[х/у] = 0, 1[х, у] = Н[х] - Н[х/у] = Н[х]. (5.11а)

т.е. количества 1[х, у] информации, содержащегося в среднем в одном сообщении о том, каким признан системой очередной документ, полностью хватает для "снятия" исходной, допоисковой неопределенности Н[х] о том, является ли на самом деле этот документ релевантным или нет поставленному запросу. Именно, если документ признан системой релевантным, то он и на самом деле является релевантным, и наоборот, если система данный документ признала нерелевантным, то и на самом деле этот документ нерелевантный.

Аналогичную картину мы наблюдаем при

X1=X2 = O, (5.12)

когда также имеют место (5.11а), с той лишь разницей, что в этом случае признание системой очередного документа релевантным или нерелевантным дает полную гарантию того, что на самом деле этот документ окажется соответственно нерелевантным или релевантным.

Таким образом, если в случае (5.11) АСДП является идеальной поисковой системой, то в случае (5.12) мы имеем дело лишь с идеальным инвертором. В этом случае мы легко можем достичь идеального результата поиска, если после работы АСДП подмножества выдачи и невыдачи поменять местами.

107

ГЛАВА 5В случае, когда

X1 + X2 = 1,

(5.13)

имеют место формулы

Н[х/у] = Н[х], Их. у] = //L vl - H[.v/v] = 0, (5.14)

т.е. в сообщениях о признании или непризнании системой данного документа релевантным не содержится никакой информации о том, каким является данный документ на самом деле. Работа АСДП эквивалентна случайной выборке. Естественно, что такая АСДП не может быть пригодна для документального поиска.

Наряду с /[X, у] работу АСДП можно характеризовать ее коэффициентом относительно уменьшения исходной неопределенности или проще - коэффициентом проводимости (см. главу 3):

x[.v,y]=/[.v,y]/tfl-v]. (5.15)

Как и при рассмотрении каналов связи, при заданных X1 и X2 значения 1[х, у] и х[х, у] достигают своих наибольших возможных значений при значениях со, равных со, и сох соответственно. Естественно, что при рассмотрении АСДП остаются в силе все формулы, полученные в главе 3.

Заметим, что при анализе энтропийных моделей документального поиска задачи согласования входа, рассмотренные в главе 3, представляют лишь теоретический интерес, так как варьировать значения со в данном случае мы не можем - они зависят от конкретных запросов пользователей.

С другой стороны, при анализе энтропийных моделей документального поиска чрезвычайно актуальной становится задача настройки информационно-поисковых систем, т.е. задача подбора на кривой X1 = X1(X2) рабочей точки, обеспечивающей наибольшее возможное значение 1[х, у]. В качестве параметра настройки t (см. формулы (3.50)-(3.51)) здесь могут быть использованы глубина индексирования запросов (при работе, например, с классификационными информационно-поисковыми языками), глубина терминологического наращивания запросов с помощью дескрипторных словарей, тезаурусов и др.

с А КОРРЕЛЯЦИОННАЯ МОДЕЛЬ 0 Ц- ДОКУМЕНТАЛЬНОГО ПОИСКА

В разделе 5.2 мы уже говорили о возможности векторного представления как обычных, так и нечетких подмножеств релевантности и выдачи. Как и при рассмотрении энтропийной модели, в этом разделе мы, не вдаваясь в подробности логико-лингвистических и программных средств реализации информационного поиска, будем рассматривать АСДП как некий "черный ящик", который в ответ на каждый

108поданный к его входу вектор X "отвечает" соответствующим выходным вектором Y. Если рассматриваемый нами "черный ящик" таков, что в ответ на каждый поданный к его входу вектор X выдает вектор Y, допускающий представление в виде

К = аХ + ??, (5.16)

где а > 0 и ? произвольные (действительные) скаляры, а через E обозначен вектор (1, 1,..., I), то будем говорить, что имеем дело с идеальной АСДП. При рассмотрении реальных АСДП условие (5.16) обычно нарушается и нашей задачей будет оценить степень расхождения работы реальной и идеальной АСДП.

Рассмотрим операции центрирования и нормирования векторов [1].

Под центрированием вектора /4(/4^ A2,..., А„) будем понимать замену вектора А вектором Л(1(Л(),, Ai)2,..., Ail,,), где

Аш = Ai-Hit,, (5.17)

"'A=-І А- <5-18)

П , = 1

Очевидно, имеет место

Ai) = А - тАЕ.

Под нормированием вектора A(Ah A2,..., А„) будем понимать замену этого вектора вектором уА, где

Y=I/л IA-. (5.19)

Очевидно, нулевой вектор операции нормирования не подлежит.

Из (5.17) + (5.19) легко заметить, что вектор A0 не что иное, как векторная проекция вектора А на гиперплоскость, перпендикулярную вектору Е. Скалярное произведение AixE произвольного центрированного вектора A0 на вектор E равно нулю. Модуль произвольного нормированного вектора равен единице.

Обозначим через а вектор, полученный из вектора А путем последовательного применения к нему операций центрирования и нормирования. Геометрически последовательное применение к вектору А операций центрирования и нормирования сводится к отображению /г-мерного пространства векторов на поверхность сферы с центром в начале координат и радиусом, равным единице. Радиус-вектор произвольной точки этой сферы перпендикулярен вектору Е. Очевидно, значение і-й координаты вектора а окажется равным

Предыдущая << 1 .. 37 38 39 40 41 42 < 43 > 44 45 46 47 48 49 .. 64 >> Следующая