Теоретические основы информатики - Аветисян Р.Д.
Скачать (прямая ссылка):
В случае, когда
Xi=X2=I, (5.11)
имеют место
Н[х/у] = 0, 1[х, у] = Н[х] - Н[х/у] = Н[х]. (5.11а)
т.е. количества 1[х, у] информации, содержащегося в среднем в одном сообщении о том, каким признан системой очередной документ, полностью хватает для "снятия" исходной, допоисковой неопределенности Н[х] о том, является ли на самом деле этот документ релевантным или нет поставленному запросу. Именно, если документ признан системой релевантным, то он и на самом деле является релевантным, и наоборот, если система данный документ признала нерелевантным, то и на самом деле этот документ нерелевантный.
Аналогичную картину мы наблюдаем при
X1=X2 = O, (5.12)
когда также имеют место (5.11а), с той лишь разницей, что в этом случае признание системой очередного документа релевантным или нерелевантным дает полную гарантию того, что на самом деле этот документ окажется соответственно нерелевантным или релевантным.
Таким образом, если в случае (5.11) АСДП является идеальной поисковой системой, то в случае (5.12) мы имеем дело лишь с идеальным инвертором. В этом случае мы легко можем достичь идеального результата поиска, если после работы АСДП подмножества выдачи и невыдачи поменять местами.
107
ГЛАВА 5В случае, когда
X1 + X2 = 1,
(5.13)
имеют место формулы
Н[х/у] = Н[х], Их. у] = //L vl - H[.v/v] = 0, (5.14)
т.е. в сообщениях о признании или непризнании системой данного документа релевантным не содержится никакой информации о том, каким является данный документ на самом деле. Работа АСДП эквивалентна случайной выборке. Естественно, что такая АСДП не может быть пригодна для документального поиска.
Наряду с /[X, у] работу АСДП можно характеризовать ее коэффициентом относительно уменьшения исходной неопределенности или проще - коэффициентом проводимости (см. главу 3):
x[.v,y]=/[.v,y]/tfl-v]. (5.15)
Как и при рассмотрении каналов связи, при заданных X1 и X2 значения 1[х, у] и х[х, у] достигают своих наибольших возможных значений при значениях со, равных со, и сох соответственно. Естественно, что при рассмотрении АСДП остаются в силе все формулы, полученные в главе 3.
Заметим, что при анализе энтропийных моделей документального поиска задачи согласования входа, рассмотренные в главе 3, представляют лишь теоретический интерес, так как варьировать значения со в данном случае мы не можем - они зависят от конкретных запросов пользователей.
С другой стороны, при анализе энтропийных моделей документального поиска чрезвычайно актуальной становится задача настройки информационно-поисковых систем, т.е. задача подбора на кривой X1 = X1(X2) рабочей точки, обеспечивающей наибольшее возможное значение 1[х, у]. В качестве параметра настройки t (см. формулы (3.50)-(3.51)) здесь могут быть использованы глубина индексирования запросов (при работе, например, с классификационными информационно-поисковыми языками), глубина терминологического наращивания запросов с помощью дескрипторных словарей, тезаурусов и др.
с А КОРРЕЛЯЦИОННАЯ МОДЕЛЬ 0 Ц- ДОКУМЕНТАЛЬНОГО ПОИСКА
В разделе 5.2 мы уже говорили о возможности векторного представления как обычных, так и нечетких подмножеств релевантности и выдачи. Как и при рассмотрении энтропийной модели, в этом разделе мы, не вдаваясь в подробности логико-лингвистических и программных средств реализации информационного поиска, будем рассматривать АСДП как некий "черный ящик", который в ответ на каждый
108поданный к его входу вектор X "отвечает" соответствующим выходным вектором Y. Если рассматриваемый нами "черный ящик" таков, что в ответ на каждый поданный к его входу вектор X выдает вектор Y, допускающий представление в виде
К = аХ + ??, (5.16)
где а > 0 и ? произвольные (действительные) скаляры, а через E обозначен вектор (1, 1,..., I), то будем говорить, что имеем дело с идеальной АСДП. При рассмотрении реальных АСДП условие (5.16) обычно нарушается и нашей задачей будет оценить степень расхождения работы реальной и идеальной АСДП.
Рассмотрим операции центрирования и нормирования векторов [1].
Под центрированием вектора /4(/4^ A2,..., А„) будем понимать замену вектора А вектором Л(1(Л(),, Ai)2,..., Ail,,), где
Аш = Ai-Hit,, (5.17)
"'A=-І А- <5-18)
П , = 1
Очевидно, имеет место
Ai) = А - тАЕ.
Под нормированием вектора A(Ah A2,..., А„) будем понимать замену этого вектора вектором уА, где
Y=I/л IA-. (5.19)
Очевидно, нулевой вектор операции нормирования не подлежит.
Из (5.17) + (5.19) легко заметить, что вектор A0 не что иное, как векторная проекция вектора А на гиперплоскость, перпендикулярную вектору Е. Скалярное произведение AixE произвольного центрированного вектора A0 на вектор E равно нулю. Модуль произвольного нормированного вектора равен единице.
Обозначим через а вектор, полученный из вектора А путем последовательного применения к нему операций центрирования и нормирования. Геометрически последовательное применение к вектору А операций центрирования и нормирования сводится к отображению /г-мерного пространства векторов на поверхность сферы с центром в начале координат и радиусом, равным единице. Радиус-вектор произвольной точки этой сферы перпендикулярен вектору Е. Очевидно, значение і-й координаты вектора а окажется равным