Критерии оценки качества поиска и информационно- поисковых систем

В теории информационного поиска предлагаются и используются различные критерии оценки качества информационно-поисковой системы.

Разработка комплекса критериев оценки качества информационного поиска - достаточно сложная проблема: состав и количественные характеристики критериев зависят от конкретного назначения и принципов реализации ИПС.

Оценка или метод оценки - это алгоритмическая процедура, которая любому оцениваемому объекту изданной области ставит в соответствие некоторый другой объект, называемый значением оценки. Полностью алгоритмическую процедуру оценки называют формальной оценкой.

Различают два типа оценок:

  • * оценки-описания, значения которых характеризуют непосредственно систему безотносительно к другим системам;
  • * оценки-шкалы, значения которых определяют сравнительные достоинства различных поисковых систем.

От «оценки-описания» требуется, чтобы ее значения позволяли достаточно полно судить о существенных свойствах оцениваемых объектов, например, предсказывать их поведение в тех или иных конкретных условиях. В этом случае «оценка-описание» называется эффективной.

От «оценки-шкалы» требуется, чтобы ее значения упорядочивали множество оцениваемых объектов, например, различных ИПС, не вступая при этом в противоречие с существующими у нас содсржательными представлениями о сравнительных достоинствах этих объектов. В этом случае «оценка-шкала» называется здравой.

Содержательные представления о сравнительных достоинствах систем являются содержательной оценкой. Объективная формальная оценка не должна противоречить содержательной.

Следует иметь в виду, что одна и та же формальная оценка может рассматриваться и как «оценка-шкала», и как «оценка-описание».

Содержательная оценка подразумевает оценку полезности информации для потребителя, для результатов его основной деятельности. При этом оценка эффективности получаемой информации подразумевает оценку ее полезности и затрат на ее получение. Кроме того, для строгой оценки необходимо выделить долю результата, которая получена именно благодаря полученной информации, что крайне затруднено.

С учетом сказанного вместо оценки эффективности поиска, ограничиваются оценкой функциональной эффективности.

Оценки поисковых систем делят на два класса, которые называются внешними (или функциональными) и внутренними оценками.

Внешни е, или функцией а л ь н ы е, оценки основаны на сравнении результатов работы системы с результатами идеального содержательного поиска, осуществляемого экспертом. В теории информационного поиска для этого введены понятия релевантности и п ертинент нести.

Под релевантностью понимается соответствие выдачи запросу, т.е. релевантность характеризует качество алгоритма поиска. Под пер- тинентностъю - соответствие выдачи потребностям лица (или лиц), для которого (которых) осуществляется поиск информации, т. е. пер- тинентность характеризует смысловыражающие возможности ИПЯ, точность отображения с его помощью информационных потребностей.

В настоящее время иногда термин релевантность используют в более широком смысле (нанр., [17]), и различают релевантность первого рода (формальную релевантность), которая соответствует термину, первоначально введенному в теории информационного поиска [18], и релевантность второго рода, соответствующую понятию пертинентности.

Для оценки релевантности используют такие критерии как полнота, точность поиска, потери, шум, которые могут быть представлены в виде различных соотношений.

В качестве критериев оценки качества информационного поиска в [ 17] вводится также понятие коэффициента корреляции поиска:

Кроме того, к числу показателей функциональной эффективности в [17] относят оперативность поиска; специфичность поиска - отношение числа невиданных нерелевантных документов (d) к общему числу нерелевантных документов (d + b), где b - число выданных нерелевантных документов:

На практике при оценке ИПС с большими массивами информации точные измерения числа релевантных и нерелевантных документов в общем массиве или в массивах выданных документов затруднено. Поэтому могут использоваться энтропийные показатели

Энтропийные меры могут быть получены на основе исследования выборки из информационного массива, т.е. могут использоваться вероятностные меры неопределенности исходного массива, р0, массива выданных рь и массива невиданных р2 документов, вычисленные на их основе Н0, Нв, Н,т и соответствующие меры W.

В частности, в [17] предлагается интегральный энтропийный показатель как мера упорядоченности поискового массива документов, являющаяся результатом процесса поиска по заданному запросу:

где Я0 - допоисковая (априорная) энтропия, Н„ - посленоисковая (апостериорная) энтропия.

При этом для измерения априорной и апостериорной энтропии в [17] предлагается использовать меры концентрации релевантных документов в общем массиве, в массиве выданных документов и в массиве невиданных документов, в относительных единицах:

где а - число релевантных документов, выданных в результате поиска; z - число релевантных, не выданных в результате поиска; g - число нерелевантных документов, выданных в результате поиска; d - число нерелевантных документов, не выдарнных в результате поиска.

Энтропийная мера может быть представлена и в логарифмической форме.

В [17], например, для оценки энтропии используются натуральная логарифмическая мера (т.е. неопределенность измеряется в неперах):

неопределенность исходного массива

неопределенность массива выданных документов:

неопределенность массива невыданных документов

При формировании подобных мер могут быть использованы и иные логарифмические шкалы: двоичные логарифмы (биты), восьмеричные логарифмы (байты), десятичные логарифмы.

Внутренние оценки основываются на таких структурных качествах системы как сложность, степень близости к человеческой логике или естественному языку, степень алгоритмичности, на оценке компонентов ИПС, и в частности информационно-поискового языка (ИПЯ) и т. п.

Например, Ч. Мидоу [18] предлагает оценивать качество информационно-поискового языка, используя следующие критерии: семантическая сиза (expressiveness), многозначность и компактность языка, стоимость выбора термина.

Семантическая сипа - это способность языка идентифицировать объект, различать мелкие особенности объектов, описывать объект с разной степенью детализации.

Подразумеваются потенциальные возможности ИПЯ, а не умение им пользоваться. Самой большой семантической силой обладает естественный язык.

Многозначность означает, что слою или синтаксическая единица тезауруса имеег более, чем одно значение (омографы), или, напротив, что некоторое значение может иметь более одного символического представления в словарном составе ИПЯ (синонимия). Кроме того, одинаково звучащие слова могут иметь различные значения (полисемия или омонимия).

Синонимия и омография могут существовать и в синтаксических единицах, состоящих из нескольких слов.

Компактность характеризуют физический размер или длину терминов словаря или поисковых образов, составленных их числа терминов, необходимых для отображения смысла документов и запросов.

Стоимость характеризует цену процесса принятия решения но выбору терминов (ключевых слов, дескрипторов или иных синтаксических единиц) для отображения смысла документа или запроса.

В общую стоимость входят: стоимость обучения пользованию языка, стоимость составления и совершенствования словаря, затраты, связанные с устранением ошибок, допущенных при выборе терминов, затраты времени на индексирование документов и составление ПОЗ.

Предлагаемые Ч. Мидоу оценки не являются независимыми и взаимоисключающими.

ИПЯ может быть семантически сильным, но многозначным. Компактность слов в словарном составе языка не определяет стоимости, т.е. затрат времени, труда на выбор терминов.

ИПЯ характеризуют также словарным составом и наличием грамматики. При наличии тезауруса ИПЯ можно охарактеризовать глубиной тезауруса, т.е. количеством уровней, видов смысловыражающих элементов или синтаксических единиц тезауруса. Характеристики ИПЯ являются внутренними оценками информационно-поисковой системы, влияющими на оценку качества информационного поиска, но критерию пертинентности.

 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ ОРИГИНАЛ   След >