Понятие о системе индексирования

Процедуру перевода с естественного языка на ИПЯ называют индексированием. Результатом такого перевода является ПОД (при вводе документов в ИПС) или ПОЗ (при индексировании запроса пользователя).

Проблема индексирования связана с семантическим анализом текстов документов. Сложность ее связана с гем, что индексирование документов, вводимых в поисковые массивы, и запросов пользователя разнесены во времени.

Для алгоритмизации и автоматизации индексирования необходимо решить проблему выбора для включения в ПОД или ПОЗ наиболее значимых ключевых слов, дескрипторов, фраз (в зависимости от лексических единиц ИПЯ).

Важность можно определить несколькими признаками:

  • * статистически, т.е. на основе частоты использования термина в документе;
  • * на основе высказываний автора (его мнения, отраженного в заглавии документа или подзаголовках, выделяемых автором в документе);
  • * с помощью грамматики, позволяющей отразить взаимосвязи между лексическими единицами, содержащимися в контексте;
  • * но критериям важности, сформулированным пользователем, для чего при индексировании документов могут быть указаны весовые коэффициенты дескрипторов.
 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ ОРИГИНАЛ   След >