Технологии поиска информации

В последние 15 лет наметилась тенденция сбора и обработки неструктурированной информации.

Доля структурированных данных (баз данных) в современных архивах составляет не более 20 %, остальные же 80 % приходятся на долю различных документов, текстов и другой информации, хранящихся в произвольном, чаще текстовом виде. Это обстоятельство существенно обострило проблему поиска и анализа данных.

Выделяют три группы методов поиска информации:

  • • методы индексного поиска;
  • • статистические методы;
  • • методы, основанные на базах знаний[1].

Индексный поиск применяется чаще всего. Он используется при поиске по текстовым полям баз данных и основан на формальном совпадении символов. Такой режим реализован в справочных правовых системах при поиске по тексту документа.

Системы индексного поиска имеют ряд существенных недостатков. Во-первых, они имеют низкую точность поиска. Это связано с тем, что один и тот же смысл может быть выражен различными словами: то слово, поиск которого задал пользователь, может отсутствовать в тексте. Во-вторых, система не может оценить, насколько точно смысл найденного документа соответствует поисковому запросу. Поэтому нужный документ может оказаться в конце списка найденных системой.

Статистические методы отличаются тем, что они исходят из предположения — чем чаще встречается слово в документе, тем в большей степени этот документ соответствует запросу. Документы с часто встречающимся искомым словом выводятся первыми, тем самым происходит ранжирование списка найденных документов, что существенно повышает эффективность работы. Однако остается проблема пропуска нужного документа, если его содержание выражается иными словами, чем введенными в запросе.

Системы, основанные на базе знаний — такое название получили методы поиска, которые каким-либо образом учитывают смысловое значение искомого слова. Для этого чаще всего ищут не только заданное слово, но и те слова, которые ему близки по смыслу. Это реализуется путем использования словаря синонимов.

Более сложные системы основаны на так называемых лингвистических правилах. В таких системах осуществляются грамматический разбор и анализ исходных документов, что позволяет выявить слова, определяющие основную тему документа. По этим словам и осуществляется поиск, что в итоге позволяет найти документ, близкий к теме запроса.

Наиболее перспективным технологическим методом считается использование семантических сетей. Семантическая сеть отражает значение (смысл) не конкретного слова, а целой фразы. Для этого предметная область отображается в виде совокупности связанных между собой понятий. Понятия задаются не одним словом, а совокупностью слов, близких по значению. Такая базовая семантическая сеть поддерживается многоуровневыми структурами словарей по отдельным отраслям знаний.

При построении семантической сети используются сложные алгоритмы синтаксического, грамматического и морфологического разбора. Учитываются и устойчивые словосочетания, например «подложный документ», которые воспринимаются как единое понятие. Реализуется распознавание разных значений слов.

Подход, основанный на построении семантических сетей, обладает достаточной гибкостью, доступен для расширения и не слишком громоздок при эксплуатации. Наиболее мощная и распространенная система данного типа — Сош/егакомпании ExcaliburTechnologies19.

  • [1] 1еКарташева Е. Интеллектуальные поисковые системы Excalibur/ Е. Карташова // Сети. - 1997. - № 6. 48
 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ ОРИГИНАЛ   След >