booksshare.net -> Добавить материал -> Физика -> Аветисян Р.Д. -> "Теоретические основы информатики" -> 40

Теоретические основы информатики - Аветисян Р.Д.

Аветисян Р.Д., Аветисян Д.О. Теоретические основы информатики — Телеком , 2003. — 170 c.
Скачать (прямая ссылка): teoriticheskieosnoviinformatiki2003.pdf

Предыдущая << 1 .. 34 35 36 37 38 39 < 40 > 41 42 43 44 45 46 .. 64 >> Следующая

Как индивидуальная, так и экспертная оценка смыслового расстояния заданной пары документ - запрос осуществляются на основе сопоставления их текстовых компонентов, т.е. на основе анализа формальной релевантности, или релевантности в соответствии с ее первым определением. Трансформация формальной релевантности через интеллектуальный потенциал экспертных групп или отдельных индивидуумов порождает соответственно меры релевантности, относящиеся ко второму и третьему ее определениям.

Задачей проектировщиков автоматизированных ИПС является имитация с помощью ЭВМ тех интеллектуальных возможностей человека, наличие которых позволяет ему осуществить переход от формальной релевантности к истинной, действительной релевантности. В дальнейшем объектами нашего рассмотрения будут истинная и автоматная (машинная) меры релевантности, где под "автоматной" будем понимать меру релевантности, генерированную ЭВМ на основе анализа формальной релевантности, т.е. на основе сопоставления тех или иных компонентов текстов документов и запросов. При этом ЭВМ оперирует арсеналом логических и лингвистических средств идентификации, совокупность которых принято называть критериями оценки смысловой (семантической) близости документов и запросов.

100МНОЖЕСТВЕННЫЕ МОДЕЛИ ДОКУМЕНТАЛЬНОГО ПОИСКА. ОБЫЧНЫЕ И НЕЧЕТКИЕ ПОДМНОЖЕСТВА РЕЛЕВАНТНОСТИ И ВЫДАЧИ, ИХ ВЕКТОРНЫЕ ПРЕДСТАВЛЕНИЯ

Представим базу данных как множество документов N, состоящее из п элементов S е N - документов базы данных. Элементы этого множества образуют 2" различных подмножеств ?, С N этого множества, в том числе пустое подмножество ф, не содержащее ни одного документа, и полное подмножество, равное N. Остальные 2" - 2 подмножества, непустые и не равные N, называются собственными подмножествами множества N.

Множество 2" подмножеств ?, С N (i = 1, 2, ..., 2") множества N обозначим через Whb нем определим бинарные операции логического сложения (объединения) и логического умножения:

объединение ?, U ?, есть подмножество всех документов, содержащихся либо в подмножестве ?,, либо в подмножестве ?;, либо и в ?,, и в ?,.

пересечение ?, П ?y есть подмножество всех документов, содержащихся и в P,, и в Py.

Множество (класс) M объектов Р, (/' = 1, 2, ..., 2"), в котором определены операции логического сложения и логического умножения, называется булевой алгеброй и обладает следующими свойствами [9] для всех P,:

1) M содержит Р, U Py и Р, П Pj - замкнутость;

2) P1 U P7 = Р, U Р„ Р, П Pj = P7 П Р, - коммутативность;

3) р, U (р7 U р„) = CP/ U P,) и ?„

р, П (P7 П Р(/) = (?, n P7) П Р(/ - ассоциативность;

4) р, П (P7 U р,) = (р, П P7) U (р, П р,),

Р, U (р7 П р,) = CP/ U Py) П (р, U р,) - дистрибутивность;

5) Р; U Р, = ?„ Р, П Р, = Р, - идемпотентность:

6) Р, U P7 = P7 в том и только в том случае, когда

Р, П Py = Р, - совместимость;

7) класс M содержит элементы 1 и ф такие, что для всякого элемента из M

P,.U0 = ?„ ?,ni=?„ P1- П 0 = ф, P1Ul = I;

8) для каждого элемента ?, класс M содержит элемент ?( (допол-

101

ГЛАВА 5нение элемента ?,) такой, что

?,U?, = l, ?, П ?, = ф.

В общем случае каждой конкретной информационной потребности на множестве N соответствует одно из его 2" возможных подмножеств (в том числе это могут быть пустое или полное подмножества). Подмножество XGN, соответствующее данной информационной потребности, включает документы, содержание которых соответствует данной информационной потребности. Умение пользователей грамотно сформулировать свою информационную потребность в виде запросов вкупе с арсеналом логико-лингвистических средств АСДП должны обеспечить по возможности большую близость с этим подмножеством подмножества YGN автоматно релевантных документов, т.е. документов, которые АСДП признает соответствующими информационному запросу. Ниже подмножества X и Y будем называть подмножествами соответственно релевантных и выданных (выдача) документов. Совместное рассмотрение пары подмножеств X и Y позволяет выделить на множестве N следующие подмножества:

подмножество релевантных документов, оказавшихся в выдаче,

a =X ПК; (5.1)

подмножество нерелевантных документов, оказавшихся в выдаче,

b = X П У; (5-2)

подмножество релевантных документов, не оказавшихся в выдаче,

C = XnF; (5-3)

подмножество нерелевантных документов, не оказавшихся в выдаче,

c = XnF. (5.4)

На рисунке 5.1 приведена матрица сопряженности "релевантность -выдача", где число элементов в подмножествах а, Ь, с и d обозначено теми же буквами, что и сами эти подмножества.

релевантные документы нерелевантные документы

выданные документы Y невыданные документы Y

Рис. 5.1. Матрица сопряженности "релевантность-выдача"

Представляется естественным подмножества X и Y признать тем более близкими, чем, при прочих равных условиях, большее число доку-

* X

а b
с d

102ментов содержится в подмножествах а и d и меньшее - в подмножествах Лис. В пределе, когда при конечных and имеет место b = с = 0, подмножества X и Y совпадают и поэтому говорят, что имеет место идеальное качество поиска. Вопросы количественной оценки степени близости подмножеств X и Y будут рассмотрены в следующих разделах, а сейчас перейдем к рассмотрению нечетких (размытых) подмножеств множества документов N.

Предыдущая << 1 .. 34 35 36 37 38 39 < 40 > 41 42 43 44 45 46 .. 64 >> Следующая