Индексирование содержимого с помощью Apache Soir

В Soir есть несколько способов индексирования, например: отправка сообщений в формате ХМЬили JSON, CSV-файлов или файлов стандартных офисных типов MIME, выборка данных из базы с помощью команд SQL или из RSS-лент. Здесь мы рассмотрим только индексирование XML-сообщений и файлов стандартных офисных типов, а за сведениями о других возможностях отсылаем читателя к документации по Soir. Точнее, если вам интересно индексирование CSV-файлов, загляните на страницу http://wiki.apache.ora/solr/UpdateCSV А если вы хотите побольше узнать об индексировании данных из базы или из RSS-лент, приглашаем познакомиться с обработчиком импорта данных по адресу http://wiki.apache.ora/solr/DataImportHandler.

Прежде чем начинать разговор об индексировании XML, следует отметить, что в Soir есть четыре операции, имеющие отношение к индексированию.

  • Добавление/обновление - позволяет добавить или обновить документ в Soir. Новые или измененные документы становятся доступны для поиска только после фиксации.
  • Фиксация - говорит Soir, что все изменения, произведенные после последней фиксации, должны быть сделаны доступными для поиска.
  • Удаление - позволяет удалить документы по идентификатору или по запросу.
  • Оптимизация - реорганизует внутренние структуры Liicene для повышения производительности поиска. Если уж производить оптимизацию, то лучше делать это после завершения индексирования. В большинстве случаев об оптимизации можно не думать.
 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ ОРИГИНАЛ   След >