Индексирование данных в формате XML

Один из способов индексирования в Soir состоит в том, чтобы построить XML-сообщение, содержащее предварительно обработанное содержимое, и отправить его по протоколу HTTP в виде запроса типа POST. Такое XML-сообщение может выглядеть примерно следующим образом:

Solr, the Enterprise Search Server

text/xml

Apache Software Foundation

Yonik Seeley

An enterprise-ready, Lucene-based search server. Features include search, faceting, hit highlighting, replication and much, much raore

Здесь ясно прослеживается простая структура: внешний элемент содержит один или несколько элементов . В каждом документе описаны его поля и, возможно, повышающий коэффициент.

Такое сообщение можно отправить методом POST в Soir прямо из любого веб-браузера или иного HTTP-клиента. Дополнительные сведения об использовании XML в Soir см. на странице вики http:// wiki.apache.org/solr/UpdateXmlMessages.

По счастью, вместе с Soir поставляется простая клиентская библиотека SolrJ, которая берет на себя всю работу, связанную с конструированием XML-сообщений. В листинге ниже демонстрируется использование SolrJ для добавления документов в Soir.

Для индексирования содержимого необходимо отправить Soir команду add для каждого документа SolrlnputDocument. Отметим, что в одной команде add может быть перечислено несколько документов, нужно только воспользоваться перегруженным методом объекта SolrServer, который принимает коллекцию (объект типа Collection). Это даже рекомендуется для повышения производительности. Если вы думаете, что накладные расходы, связанные с HTTP, негативно отразятся на производительности индексирования, успокойтесь - на практике объем работы по управлению соединениями, как правило, невелик по сравнению с затратами на индексирование.

Вот, собственно, вы и познакомились с основами индексирования данных в формате XML. Теперь рассмотрим индексирование файлов стандартных форматов.

 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ ОРИГИНАЛ   След >