Научная литература
booksshare.net -> Добавить материал -> Физика -> Аветисян Р.Д. -> "Теоретические основы информатики" -> 48

Теоретические основы информатики - Аветисян Р.Д.

Аветисян Р.Д., Аветисян Д.О. Теоретические основы информатики — Телеком , 2003. — 170 c.
Скачать (прямая ссылка): teoriticheskieosnoviinformatiki2003.pdf
Предыдущая << 1 .. 42 43 44 45 46 47 < 48 > 49 50 51 52 53 54 .. 64 >> Следующая


На практике чаще всего приходится иметь дело со случаями, когда с/,,, Гц. Cil, Cii и а, могут принимать произвольные действительные значения.

Линейный ассоциативный поиск.

Рассмотрим матрицу сопряженности С |с,(| "документ - термин", где Cjj принимают произвольные действительные значения, указывающие на значимость у-го термина при описании /-го документа. Например, с,, могут принимать значения, равные числу встречаемости у-го термина в тексте /-го документа. В другом случае Cij могут принимать значения, равные отношению числа встречаемости у-го термина в /-м документе к общему числу терминов в этом документе. В ряде случаев значення Cij приписываются индексаторами, которые после ознакомления с текстами документов сами определяют по своему усмотрению значимость у-го термина при описании /-го документа.

Аналогично, пользовательский запрос также может быть представлен вектором Q[qj\ размерности т, где </¦ принимают произвольные действительные значения, указывающие на значимость у-го термина при описании данного запроса. Степень значимости у-го термина, т.е. значение qj определяется самим пользователем либо самостоятельно, либо же с помощью индексаторов.

Как и в случае бинарных векторов, будем рассматривать матричное произведение

AW = CQi »>, (5.56)

где верхний индекс "О" при векторе ?<0)[V;0)j указывает на то, что

речь идет именно о первоначально сформулированном пользователем запросе.

Из (5.56) непосредственно следует, что

(5.57)

Руководствуясь рядом соображений (в том числе и интуитивными), ряд авторов считает, что значения а,-0) можно принимать за формальную меру релевантности /-го документа пользовательскому запросу ?<()). На этом, собственно, и базируются различные критерии оценки семантической близости, оперирующие методом весовых коэф-

120 фициентов. В сущности, значение а}"1 равно скалярному произведению /-го вектора - строки матрицы С на вектор Qiin. О правомочности принятия скалярного произведения двух векторов за меру hn Cvnnoc i и (подобия) будем говорить ниже. А сейчас рассмотрим матричное произведение

Q1 ('Л'-. (5.581

где C1 - ма трица, транспонированная относительно матрицы С.

Руководствуясь теми же соображениями, что и при рассмотрении формулы (5.57), можно было значения

<il,u = zW

:=і

прокомментировать как уточненные значения (/f'. т.е. уточненные

значения значимости у-го термина при описании пользовательского запроса. Тогда стало бы актуальным рассматривать матричное произведение

Aiu = CQ0'.. \5.60)

приняв значения

пі /-і

за уточненную формальную меру релевантности /-го документа пользовательскому запросу.

Продолжая "в том же духе", мы придем к рассмотрению бесконечного процесса

Аа)) = CQm Qiu=CrAi01 Aiu = CQiu

Ain = CQin (5'62) Qi-^u=CrAin

характер поведения которого при достаточно больших t и будет предметом нашего рассмотрения. Из (5.62) легко обнаружить, что

Qw=(CtC) Qm, (5.63)

Ain=(CCr)Am, (5.64)

где (Ce) и (ССГ) - это матрицы соответственно CtC и CCr, возведенные в степень л

121

ГЛАВА 5 Можно показать, что если F2(X) и Ft(X) являются характеристическими многочленами соответственно матриц CtC и CCt, где С -произвольная матрица размерности п х т, то справедлива формула (см. приложение 1):

Ft(X) = X'-"1 F2(X). (5.65)

Пусть среди корней характеристического многочлена F2(X) имеется старшее по модулю собственное значение X0 матрицы CtC. Тогда из (5.65) следует, что среди корней характеристического многочлена Ft(X) также имеется старший по модулю корень - собственное значение матрицы CC7. Более того, значение этого собственного значения также равно X0. Но из теоремы Сильвестра следует, что наличие у матрицы CtC старшего по модулю собственного значения X0 влечет справедливость при достаточно больших t приближенной формулы [3, 9]:

(СГС)'+І =X0(CtC)', (5.66)

с учетом которой из (5.63) имеем:

?<'+1) =(ctc)q{,) =X0QilK (5.67)

Аналогично, из (5.64) имеем

л('+|)=(ссг)л(,)=х0л('). (5.68)

Из (5.67) и (5.68) следует, что с увеличением значения t векторы Qin и Л(,) стремятся принимать направления собственных векторов матриц CtC и CCt, соответствующих собственным значениям этих матриц, равным А<). Иными словами, при произвольном ненулевом векторе ?<(," чем больше значение индекса t, тем в меньшей степени векторы Q{,) и Л(" зависят от вектора ?((l), а в пределе, когда t°эти векторы и вовсе перестают зависеть от ?(()).

Образно говоря, если вектор Q{{)) вообще не учитывает свойства поисковой среды (выразителем которого является матрица С), то при формировании вектора Q{i) фактор среды уже учитывается. Еще в большей степени фактор среды учитывается при формировании вектора Q{2) и далее,чем больше значение индекса t, тем в большей степени при формировании вектора Qw учитывается фактор среды и тем в меньшей степени - пользовательский запрос, т.е. вектор Q(0). В результате при достаточно больших значениях индекса t при формировании вектора Q{,) пользовательский запрос ?(0) вовсе предается забвению и вектор Q(,) становится своеобразным выразителем свойств самой поисковой среды. Аналогично обстоит дело также с вектором Лм.
Предыдущая << 1 .. 42 43 44 45 46 47 < 48 > 49 50 51 52 53 54 .. 64 >> Следующая

Реклама

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed

Есть, чем поделиться? Отправьте
материал
нам
Авторские права © 2009 BooksShare.
Все права защищены.
Rambler's Top100

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed