Теоретические основы информатики - Аветисян Р.Д.
Скачать (прямая ссылка):
(5.20)
x (а-'»а)
где значение тА определяется по формуле (5.18). Также очевидно, что
109
ГЛАВА 5скалярное произведение аЕ всегда равно нулю, а модуль вектора а всегда равен единице.
Из (5.20) легко заметить, что если последовательное применение к вектору А операций центрирования и нормирования отображает его в точку X, то произвольный вектор ?, который можно представить как
В = аА + $Е (а > 0), (5.16а)
также отобразится в точку х.
Последовательное применение операций центрирования и нормирования к паре векторов X и К, где x - вектор релевантности, a y- вектор выдачи, приводит к паре векторов соответственно х и у с координатами, равными
X - т Yi-т.
' х ; У І = , ' ¦ (5.21)
I(Xi-Inx) Jl(Yi-Iny)
i=i V/=J
Скалярное произведение векторов л' и у, очевидно, равно
I(Xi-Mx)(Yi-Iny)
ху = -
/=і
(5.22)
1(Х,-тг)\1 (Yi-IihY
I=I Vi=:
Рассмотрим систему случайных величин х и у и обозначим через Xi и Yi конкретные значения, которые принимают случайные величины х и у в /-M эксперименте из п независимых экспериментов, проведенных в одинаковых условиях. Для оценки степени связанности случайных величин X и у обычно оперируют коэффициентом линейной корреляции между этими случайными величинами,
Rrr Rrx
(5.23)
где
тх = M[Xj\ - математическое ожидание случайной величины д:;
Rxy = M[(Xj - mx)(Yj - ту)] - корреляционный момент или момент связи между случайными величинами х и у;
Dx = Rxx - дисперсия случайной величины х;
од. = Dx- среднее квадратичное отклонение случайной величины х.
Для статистической оценки значения коэффициента линейной корреляции ; vv между случайными величинами х и у на основе данных п независимых экспериментов, проведенных в одинаковых условиях, поль-
110зуются формулой
і (Xi-Hix)(Yl-Iny) г - , '=' —
'.VV
Ji (х,-тх)2
где тх - статистическая оценка математического ожидания случайной величины X. Ее значение определяется по формуле (5.18).
Естественно, что формула (5.22а) имеет смысл лишь при отличных от нуля значениях Dx и Dy, т.е. при соблюдении условий
I (Xi- Hix )2 * 0 и t (У,-ту)2*0.
1=1 /=|
Формулы (5.22) и (5.22а) совпадают, т.е. если отождествлять меры истинной и автоматной релевантности і-го документа с конкретными значениями случайных величин х и у (далее их будем называть случайными величинами релевантности и выдачи) в і-м эксперименте, общее число экспериментов отождествлять с числом и документов в базе данных, а под "одинаковыми условиями" понимать "проведение экспериментов в рамках одной и той же АСДП применительно к фиксированному запросу", то в качестве степени связанности (коэффициента линейной корреляции) случайных величин релевантности и выдачи X и у можно использовать формулу (5.22) скалярного произведения векторов X и у.
Можно показать (см., например, [10]), что значения г ограничены интервалом
-1 =? rxy =S 1, (5.24)
причем \rxy\ = 1 тогда и только тогда, когда векторы X и y связаны формулой
Y = аХ + ??, (5.25)
где а и ? произвольные скаляры. Заметим, что при этом имеет место
rxy = Sgn (а). (5.26)
Легко заметить также, что в общем случае rxy = гух, а при наличии связи (5.25) имеет место
'".-V = Sgn (а). (5.27)
Подавляющее большинство промышленных АСДП работают с обычными подмножествами множества N, т.е. имеют дело с бинарными векторами x и y, координаты которых могут принимать одно из двух значений, а именно, нуль или единица. При этом, как мы в этом неоднократно убедились выше, исчерпывающей характеристикой работы
I(Y1-Hiy)2
111
ГЛАВА 5АСДП может служить матрица сопряженности "релевантность - выдача", представленная на рис. 5.1. Действительно, пользуясь формулой (5.22), путем несложных преобразований можно показать, что в частном случае, когда речь идет о простых подмножествах релевантности и выдачи (x и К), т.е. когда речь идет о бинарных векторах, значение гху зависит от элементов матрицы сопряженности "релевантность - выдача" по формуле [21:
od - be
rtv = , . (5.28
- ^(a + b)(a+c)(b + d)(c + d)
Очевидно, эта формула имеет смысл лишь при соблюдении условий a + b Ф 0. а + с Ф 0, b + d Ф 0 и с + d Ф 0.
Обратим внимание на то, что знак г,Л. совпадает со знаком определителя (детерминанта) матрицы сопряженности, причем гп. = 0 тогда и только тогда, когда значение определителя равно нулю, т.е. когда
ad = be. (5.29)
или, что то же самое,
a/(a + b) = (а + с)/п. (5.29а)
Равенство нулю определителя матрицы свидетельствует о том, что работа АСДП эквивалентна случайной выборке, когда концентрация, доля релевантных документов в выдаче оказывается равной концентрации релевантных документов в исходном множестве N документов. При этом эффект присутствия АСДП равен нулю.
Отрицательные значения определителя свидетельствуют о том, что концентрация релевантных документов в выдаче меньше, чем их концентрация в исходном множестве документов. Эффект присутствия АСДП отрицательный, АСДП оказывает нам "медвежью услугу".
Лишь положительные значения определителя свидетельствуют о положительном эффекте присутствия АСДП, так как лишь при этом концентрация релевантных документов в выдаче оказывается большей, чем их концентрация в исходном множестве.