Построение классификаторов документов с помощью Apache Lucene

Некоторые алгоритмы классификации называются пространственными методами. В них содержимое документа представляется в виде вектора признаков - точки в векторном пространстве (см. описание векторной модели в главе 3). А категория документа определяется путем измерения расстояния или угла между вектором термов подлежащего классификации документа и другими векторами, представляющими документы или категории. В этом разделе мы рассмотрим два пространственных алгоритма классификации: метод k-ближайших соседей и TF- IDF. В том и другом классифицируемый документ рассматривается как запрос, и в индексе Lucene выполняется поиск удовлетворяющих этому запросу документов. Для определения категории документа-запроса используются категории найденных документов. В ал горитме к-бли- жайших соседей просматривается индекс классифицированных документов, а в алгоритме TF-IDF - индекс, в котором каждый документ представляет одну из присваиваемых категорий. У обоих алгоритмов есть преимущества: простота реализации и производительность.

Векторная модель - это основа системы Lucene, оптимизированной так, что вычисления расстояний, необходимые в обоих алгоритмах, производятся быстро, что создает отличный фундамент для возведения нужной функциональности.

В этом разделе мы построим классификаторы документов, в которых Apache Lucene и алгоритмы k-ближайших соседей и TF-IDF применяются для отнесения документов к предметным областям. Мы обучим эти классификаторы на бесплатном тестовом корпусе документов и посмотрим, как оценить качество выдаваемых ими результатов. Поскольку это первый пример, то мы постараемся не усложнять дело, однако все введенные концепции найдут применение и в последующих примерах. Обратите также внимание, что в изложении примера мы точно следуем процессу классификации, описанному в разделе 7.2.

 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ ОРИГИНАЛ   След >