Классификация с обучением. Другие алгоритмы
Рассмотрим кратко принципы работы некоторых других алгоритмов классификации текстов.
Алгоритм Роккио
Алгоритм Роккио рассматривает документы в векторном пространстве терминов и ищет границы между классами как множества точек, равноудалённых от центроидов этих классов. Центроидом класса называется усреднённый вектор, или центр масс членов класса:

Граница между двумя классами в многомерном пространстве терминов имеет вид гиперплоскости. Правило классификации заключается в определении области, в которую попадает новый документ, то есть в поиске центроида, к которому образ нового документа ближе, чем к остальным центроидам.

Рис. 4.6. Иллюстрация работы алгоритма Роккио
На рис. 4.6 к документу «звёздочка» ближе всех центроид класса «кружков». Алгоритм Роккио предполагает, что классы имеют форму сфер с примерно одинаковыми радиусами. Если это предположение не выполняется, то алгоритм может привести к неудовлетворительным результатам. Например, на рис. 4.6 документ «квадрат» больше подходит классу «крестиков», а алгоритм отнесёт его к классу «треугольников».