Научная литература
booksshare.net -> Добавить материал -> Физика -> Аветисян Р.Д. -> "Теоретические основы информатики" -> 47

Теоретические основы информатики - Аветисян Р.Д.

Аветисян Р.Д., Аветисян Д.О. Теоретические основы информатики — Телеком , 2003. — 170 c.
Скачать (прямая ссылка): teoriticheskieosnoviinformatiki2003.pdf
Предыдущая << 1 .. 41 42 43 44 45 46 < 47 > 48 49 50 51 52 53 .. 64 >> Следующая


Аналогично, величина /Л[л, у] может рассматриваться как некое приближение к значению I [д, у] - количеству информации, полученной в результате информационного поиска.

Таким образом, замена функции H функцией R позволяет установить соответствующие аналогии между параметрами, характеризующими энтропийную и корреляционную модели АСДП. Совместный анализ

117

ГЛАВА 5 этих параметров оказывается особенно плодотворным при рассмотрении ряда оптимизационных задач, когда прямое вычисление некоторых величин не удается и приходится ограничиться лишь их приближенными оценками. При этом удается с единой точки зрения интерпретировать параметры, характеризующие энтропийную и корреляционную модели, а иногда и установить между ними прямые аналитические (не приближенные) связи.

Рассмотрим пример.

В третьей главе мы показали, что величина / [х, у] может быть представлена как функция трех аргументов

y] = fi(Xі, X2, со).

Пусть теперь нас интересует характер зависимости величины / [л, у] от аргумента со при фиксированных значениях X1 и X2. При исследовании этой зависимости удается установить, что справедлива формула

Э21[х, у] / Эсо2 = r2.d2H / Jco2, (5.53)

но поскольку

d2H Idw2 =-log2e /со(1-со) < 0, (5.54)

то из (5.53) непосредственно следует выпуклость зависимости I [л', у] от аргумента со, т.е. единственность решения уравнения

д![х, у] / Эсо = 0.

Более подробный анализ связей между параметрами, характеризующими энтропийную и корреляционную модели, можно найти в [2].

ГлГ МАТРИЧНЫЕ МОДЕЛИ

ДОКУМЕНТАЛЬНОГО ПОИСКА

Первые публикации по матричным моделям документального поиска восходят к шестидесятым годам нашего столетия. Повышенный интерес к разработке и совершенствованию этих моделей отчасти был обусловлен появлением возможности создания специализированных матричных процессоров, способных выполнять матричные операции существенно быстрее обычных процессоров общего назначения.

Пусть рассматривается некоторое множество из п документов. На основе этого множества можно построить множество всех т терминов, которые хоть раз встречались в каком-либо одном или более документах. При наличии этих двух множеств можно говорить по крайней мере о трех типах сопряженности:

сопряженность типа "документ - документ"; сопряженность типа "термин - термин"; сопряженность типа "документ - термин". •

118 Если первые два типа сопряженностей можно выразить квадратными матрицами порядков соответственно пит, то сопряженность типа "документ - термин" выражается в общем случае прямоугольной матрицей С [си] размерности п х т. В простейшем случае это матрица, где значение CiJ равно единице, если 7-й термин содержится в /-документе, и нулю - в противном случае. При этом каждому документу ставится в соответствие некоторый m-мерный бинарный вектор (строка), т.е. некоторая из 2т вершин т-мерного единичного куба пространства терминов. Аналогично, каждому термину ставится в соответствие некоторый и-мерный бинарный вектор (столбец), т.е. некоторая из 2" вершин и-мерного единичного куба пространства документов.

Простейшим примером матрицы сопряженности типа "документ -документ" может служить квадратная матрица D [d,-,] порядка п, где значение djj равно единице, если существует хоть один термин, одновременно содержащийся как в /-м, так и в j-м документах, и нулю - в противном случае.

В качестве же простейшего примера матрицы сопряженности типа "термин - термин" может служить квадратная матрица T [/,у] порядка т, где значение равно единице, если существует хоть один документ, где одновременно содержатся как /-й, так и j-й термины, и нулю - в противном случае.

Продолжая рассматривать лишь простейшие случаи, положим, что пользовательские запросы также представлены соответствующими бинарными векторами, а именно:

и-мерным бинарным вектором, значение /-й координаты которого равно единице, если і-Pi документ пользователем включен в список документов, представляющий его запрос, и нулю - в противном случае;

m-мерным бинарным вектором, значение /-й координаты которого равно единице, если /-й термин пользователем включен в список терминов, представляющий его запрос, и нулю - в противном случае.

Далее векторы Q представляющие пользовательские запросы, будем рассматривать (в зависимости от формы их представления) либо как матрицы-строки, либо же как матрицы-столбцы.

В случае, когда Q является бинарным вектором размерности т, можно говорить об и-мерном векторе А [а,] - реакции системы на запрос Q:

A = CQ. (5.55)

Значение ;-й координаты и-мерного вектора А [я,] при этом оказывается равным числу терминов запроса, оказавшихся в /-м документе. Естественно (хотя и небезупречно) полагать, что чем больше значение а,, тем больше вероятность того, что /-й документ релевантен пользовательскому запросу Q.

119

ГЛАВА 5 Можно условиться, например, выдать пользователю только те документы, для которых имеет место а, > ?, где ? - некоторое пороговое значение.

Заметим, что даже тогда, когда все строки и столбцы матрицы С|с(/], а также вектор Q представлены бинарными векторами, вектор А в общем случае не получается бинарным и значениями а, могут служить произвольные натуральные числа.
Предыдущая << 1 .. 41 42 43 44 45 46 < 47 > 48 49 50 51 52 53 .. 64 >> Следующая

Реклама

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed

Есть, чем поделиться? Отправьте
материал
нам
Авторские права © 2009 BooksShare.
Все права защищены.
Rambler's Top100

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed