booksshare.net -> Добавить материал -> Физика -> Аветисян Р.Д. -> "Теоретические основы информатики" -> 44

Теоретические основы информатики - Аветисян Р.Д.

Аветисян Р.Д., Аветисян Д.О. Теоретические основы информатики — Телеком , 2003. — 170 c.
Скачать (прямая ссылка): teoriticheskieosnoviinformatiki2003.pdf

Предыдущая << 1 .. 38 39 40 41 42 43 < 44 > 45 46 47 48 49 50 .. 64 >> Следующая

(5.20)

x (а-'»а)

где значение тА определяется по формуле (5.18). Также очевидно, что

109

ГЛАВА 5скалярное произведение аЕ всегда равно нулю, а модуль вектора а всегда равен единице.

Из (5.20) легко заметить, что если последовательное применение к вектору А операций центрирования и нормирования отображает его в точку X, то произвольный вектор ?, который можно представить как

В = аА + $Е (а > 0), (5.16а)

также отобразится в точку х.

Последовательное применение операций центрирования и нормирования к паре векторов X и К, где x - вектор релевантности, a y- вектор выдачи, приводит к паре векторов соответственно х и у с координатами, равными

X - т Yi-т.

' х ; У І = , ' ¦ (5.21)

I(Xi-Inx) Jl(Yi-Iny)

i=i V/=J

Скалярное произведение векторов л' и у, очевидно, равно

I(Xi-Mx)(Yi-Iny)

ху = -

/=і

(5.22)

1(Х,-тг)\1 (Yi-IihY

I=I Vi=:

Рассмотрим систему случайных величин х и у и обозначим через Xi и Yi конкретные значения, которые принимают случайные величины х и у в /-M эксперименте из п независимых экспериментов, проведенных в одинаковых условиях. Для оценки степени связанности случайных величин X и у обычно оперируют коэффициентом линейной корреляции между этими случайными величинами,

Rrr Rrx

(5.23)

где

тх = M[Xj\ - математическое ожидание случайной величины д:;

Rxy = M[(Xj - mx)(Yj - ту)] - корреляционный момент или момент связи между случайными величинами х и у;

Dx = Rxx - дисперсия случайной величины х;

од. = Dx- среднее квадратичное отклонение случайной величины х.

Для статистической оценки значения коэффициента линейной корреляции ; vv между случайными величинами х и у на основе данных п независимых экспериментов, проведенных в одинаковых условиях, поль-

110зуются формулой

і (Xi-Hix)(Yl-Iny) г - , '=' —

'.VV

Ji (х,-тх)2

где тх - статистическая оценка математического ожидания случайной величины X. Ее значение определяется по формуле (5.18).

Естественно, что формула (5.22а) имеет смысл лишь при отличных от нуля значениях Dx и Dy, т.е. при соблюдении условий

I (Xi- Hix )2 * 0 и t (У,-ту)2*0.

1=1 /=|

Формулы (5.22) и (5.22а) совпадают, т.е. если отождествлять меры истинной и автоматной релевантности і-го документа с конкретными значениями случайных величин х и у (далее их будем называть случайными величинами релевантности и выдачи) в і-м эксперименте, общее число экспериментов отождествлять с числом и документов в базе данных, а под "одинаковыми условиями" понимать "проведение экспериментов в рамках одной и той же АСДП применительно к фиксированному запросу", то в качестве степени связанности (коэффициента линейной корреляции) случайных величин релевантности и выдачи X и у можно использовать формулу (5.22) скалярного произведения векторов X и у.

Можно показать (см., например, [10]), что значения г ограничены интервалом

-1 =? rxy =S 1, (5.24)

причем \rxy\ = 1 тогда и только тогда, когда векторы X и y связаны формулой

Y = аХ + ??, (5.25)

где а и ? произвольные скаляры. Заметим, что при этом имеет место

rxy = Sgn (а). (5.26)

Легко заметить также, что в общем случае rxy = гух, а при наличии связи (5.25) имеет место

'".-V = Sgn (а). (5.27)

Подавляющее большинство промышленных АСДП работают с обычными подмножествами множества N, т.е. имеют дело с бинарными векторами x и y, координаты которых могут принимать одно из двух значений, а именно, нуль или единица. При этом, как мы в этом неоднократно убедились выше, исчерпывающей характеристикой работы

I(Y1-Hiy)2

111

ГЛАВА 5АСДП может служить матрица сопряженности "релевантность - выдача", представленная на рис. 5.1. Действительно, пользуясь формулой (5.22), путем несложных преобразований можно показать, что в частном случае, когда речь идет о простых подмножествах релевантности и выдачи (x и К), т.е. когда речь идет о бинарных векторах, значение гху зависит от элементов матрицы сопряженности "релевантность - выдача" по формуле [21:

od - be

rtv = , . (5.28

- ^(a + b)(a+c)(b + d)(c + d)

Очевидно, эта формула имеет смысл лишь при соблюдении условий a + b Ф 0. а + с Ф 0, b + d Ф 0 и с + d Ф 0.

Обратим внимание на то, что знак г,Л. совпадает со знаком определителя (детерминанта) матрицы сопряженности, причем гп. = 0 тогда и только тогда, когда значение определителя равно нулю, т.е. когда

ad = be. (5.29)

или, что то же самое,

a/(a + b) = (а + с)/п. (5.29а)

Равенство нулю определителя матрицы свидетельствует о том, что работа АСДП эквивалентна случайной выборке, когда концентрация, доля релевантных документов в выдаче оказывается равной концентрации релевантных документов в исходном множестве N документов. При этом эффект присутствия АСДП равен нулю.

Отрицательные значения определителя свидетельствуют о том, что концентрация релевантных документов в выдаче меньше, чем их концентрация в исходном множестве документов. Эффект присутствия АСДП отрицательный, АСДП оказывает нам "медвежью услугу".

Лишь положительные значения определителя свидетельствуют о положительном эффекте присутствия АСДП, так как лишь при этом концентрация релевантных документов в выдаче оказывается большей, чем их концентрация в исходном множестве.

Предыдущая << 1 .. 38 39 40 41 42 43 < 44 > 45 46 47 48 49 50 .. 64 >> Следующая