Теоретические основы информатики - Аветисян Р.Д.
Скачать (прямая ссылка):
первое подмножество
второе а b
подмножество с d
Рис. 5.3. Матрица, характеризующая степень близости подмножестп X, и X2
її - число элементов исходного множества, одновременно принадлежащих обоим подмножествам,
b - число элементов исходного множества, которые принадлежат второму подмножеству и не принадлежат первому;
125
ГЛАВА 5с - число элементов исходного множества, которые принадлежат первому и не принадлежат второму;
d— число элементов исходного множества, которые не принадлежат ни первому, ни второму подмножествам.
Очевидно, имеет место a + b + с + d = z.
Пусть, например, речь идет об оценке степени близости двух обычных подмножеств, определенных на множестве терминов и представляющих пользовательский запрос и очередной документ. Представляется вполне естественным, чтобы документы, которым при фиксированных значениях а и z соответствуют большие значения b и с, признались бы менее релевантными пользовательскому запросу, чем документы, которым соответствуют меньшие значения b и с. Скалярное же произведение двух векторов, равное в данном случае величине а, не учитывает этого обстоятельства,и поэтому его применение нельзя признать правомочным, корректным. В то же время, практически во всех существующих матричных моделях документального поиска фигурирует операция умножения матриц, сводящаяся, как известно, к вычислению скалярных произведений соответствующих векторов. Это обстоятельство ставит под сомнение правомочность, корректность использования всех моделей, где используется операция умножения матриц. С другой стороны, при рассмотрении корреляционных моделей документального поиска мы неоднократно убедились в правомерности, корректности использования для оценки степени близости двух векторов (или, что то же самое, двух подмножеств) формулы коэффициента линейной корреляции (см. например, формулу 5.28). В рассматриваемом смысле представляется заманчивым разработать модели, где корректность формулы коэффициента корреляции сочеталась бы с изяществом инструментария матричного исчисления (собственные векторы, собственные значения и т.п.). Наши исследования показали, что этого можно достичь путем введения в рассмотрение операции /^-произведения матриц.
В разделе, где приведена теория динамического взаимодействия различных стратегий анализа, аргументируется использование /?-про-изведения матриц вместо обычной операции умножения матриц. Свидетельством же практической целесообразности использования R-произведения матриц могут служить результаты промышленной эксплуатации аналитических систем, функционирующих по принципу динамического взаимодействия различных стратегий анализа.ЭФФЕКТИВНОСТЬ ДОКУМЕНТАЛЬНОГО ПОИСКА И КРИТЕРИИ ЕЕ ОЦЕНКИ
Одно из центральных мест в общей проблематике информационного поиска занимает проблема оценки эффективности АСДП. Оценка эффективности осуществляется не только для пассивной констатации преимуществ или недостатков уже существующих АСДП, но и для выбора оптимальных решений из альтернативных вариантов на этапе проектирования. Оценке могут подвергаться как АСДП в целом, так и отдельные их компоненты (подсистемы). При этом необходимо исходить из того, что целевая функция каждого из компонентов должна быть подчинена целевой функции АСДП в целом.
Будем различать технико-экономическую и функциональную эффективность А СДП.
Под технико-экономической эффективностью обычно понимают совокупность таких факторов, как быстродействие АСДП, полнота охвата документов при комплектовании баз данных, себестоимость поиска, оснащенность системы современной множительной аппаратурой, возможность ее эксплуатации в сетевом режиме, оснащенность различными средствами защиты информации, минимальная конфигурация, комфортность и т.п.
Под функциональной эффективностью будем понимать способность системы извлечь из базы данных и выдать пользователю как можно большее число релевантных документов и как можно меньшее число нерелевантных.
Долгие годы в отечественной практике фактически отсутствовала ценовая политика на информационные услуги. О таких важных показателях, как себестоимость и цена информационного обслуживания, обычно умалчивалось. В наше же время, в период рыночной экономики, именно за этими показателями зачастую остается последнее слово при решении вопроса о том, "быть или не быть" данному автоматизированному центру информации. Поэтому представляется вполне естественным желание ряда исследователей разработать комплексные критерии для одновременной оценки функциональной и технико-эконо-мической эффективности АСДП. Способ взвешенного суммирования (или умножения) значений отдельных критериев - составляющих, учитывающих различные аспекты функциональной и технико-эконо-мической эффективности АСДП, вряд ли можно признать перспективным, так как в сущности своей этот способ искусственный, не отражающий природы информационного поиска. Неудачи в области синтеза комплексных критериев, одновременно учитывающих функциональную и технико-экономическую эффективность АСДП, объясняются еще и отсутствием общепринятых количественных характеристик, устанавливающих зависимость стоимости информации от оперативности оповещения. В сложившейся обстановке порою приходится соглашаться с