Обработка неструктурированных текстов. Поиск, организация и манипулирование

ПРЕДИСЛОВИЕВСТУПЛЕНИЕБЛАГОДАРНОСТИОБ ЭТОЙ КНИГЕПредполагаемая аудиторияСтруктура книгиГрафические выделения и загрузка исходного кодаАвтор в сетиОБ ИЛЛЮСТРАЦИИ НА ОБЛОЖКЕ Готовимся к приручению текста Почему так важна задача обработки текста Предварительный обзор фактографической вопросно-ответной системы Здравствуй, доктор Франкенштейн Понять смысл текста трудно Прирученный текст Текст и интеллектуальные приложения: поиск и не только Поиск и сопоставление Извлечение информации Группировка информации Интеллектуальное приложение Резюме Ресурсы Основы приручения текста Основы лингвистики Категории слов Словосочетания и части предложения Морфология Популярные инструменты для обработки текста Инструменты для манипуляций со строками Лексемы и лексический анализ Частеречная разметка Стемминг Распознавание предложений Грамматика и грамматический анализ Моделирование последовательности Предобработка и выделение содержимого из файлов в распространенных форматах Важность предобработки Извлечение содержимого с помощью Apache Tika Резюме Ресурсы Поиск Пример фасетного поиска: Amazon.com Введение в концепции поиска Индексирование содержимого Ввод запроса пользователем Ранжирование документов с помощью векторной моделиКраткое знакомство с векторной моделью Отображение результатов Введение в поисковый сервер Apache Soir Первый запуск Soir Основные концепции Soir Проектирование схемы Soir Индексирование содержимого с помощью Apache Soir Индексирование данных в формате XML Извлечение и индексирование содержимого с помощью Soir и Apache Tika Поиск по содержимому в Apache Soir Параметры запроса к SoirПрограммный доступ к Soir Построение фасетов по извлеченному содержимому Факторы, влияющие на производительность поиска Оценка качественных показателей Оценка количественных показателей Повышение производительности поиска Совершенствование на уровне оборудования Повышение качества анализа Повышение качества обработки запросов Альтернативные модели оценивания Способы повышения производительности SoirПовышение производительности индексированияПроизводительность поиска Альтернативные поисковые системы Резюме Ресурсы Неточное сравнение строк Различные подходы к неточному сравнению строк Меры, основанные на множестве общих символовМера ЖаккараРасстояние Джаро-Винклера Редакционные расстоянияВычисление редакционного расстоянияНормировка редакционного расстоянияВзвешивание операций редактирования N-граммное редакционное расстояниеУлучшения метода n-граммного редакционного расстояния Нахождение строк, неточно совпадающих с данной Использование префиксного сравнения в Soir Использование префиксных деревьев для префиксного сравненияЧто такое префиксное дерево?Реализация префиксного дереваПрефиксные деревья в Soir Сравнение с помощью n-граммПоиск с помощью n-грамм в Soir Использование неточного сравнения строк в приложениях Добавления механизма автозаполнения к поискуИндексирование префиксов в SoirПолучение результатов префиксного поиска в SoirДинамическое заполнение поискового поля Проверка орфографии запросаКраткое описание нашего подходаРеализация функции «Возможно, вы имели в виду» в SoirИспользование встроенного в Soir компонента проверки орфографии Сопоставление записейКраткое описание нашего подходаНахождение потенциальных кандидатов с помощью SoirРанжирование потенциальных кандидатовОценка результатов Резюме Ресурсы Распознавание имен людей, географических названий и других сущностей Различные подходы к распознаванию именованных сущностей Применение правил для распознавания имен и названий Применение статистических классификаторов для распознавания имен и названий Основы распознавания сущностей в OpenNLP Нахождение имен и названий с помощью OpenNLP Интерпретация имен, распознанных OpenNLP Фильтрация имен на основе вероятности Подробнее о распознавании сущностей в ОреnNLP Распознавание разнородных сущностей в ОреnNLP Под капотом: как в OpenNLP распознаются имена Качество работы ОреnNLP Качество результатов Производительность Потребление памяти в ОреnNLP Настройка ОреnNLP для распознавания сущностей в новой предметной области Зачем и как обучают модель Обучение модели OpenNLP Изменение входных данных для модели Другой способ моделирования имен Резюме Ресурсы Кластеризация текста Кластеризация документов в Google News Основы кластеризации Три типа текстов, поддающихся кластеризации Выбор алгоритма кластеризации Определение сходства Пометка результатов Как оценивать результаты кластеризации Подготовка к созданию простого приложения кластеризации Кластеризация результатов поиска с помощью Carrot2 Использование Carrot2API Кластеризация результатов поиска Soir с помощью Carrot2 Кластеризация наборов документов с помощью Apache Mahout Подготовка данных к кластеризацииПрограммное создание векторовСоздание векторов из индекса Apache Lucene Кластеризация методом К-средних Тематическое моделирование с помощью Apache Mahout Качество кластеризации Отбор и уменьшение числа признаков Производительность и качество Carrot2Выбор алгоритма в Carrot2 Тесты производительности кластеризации в MahoutПодготовкаНастройка HADOOP.Векторизация содержимогоРезультаты измерения производительности кластеризации методом К-среднихРезультаты измерения производительности других алгоритмов кластеризации в MahoutИтоги тестов производительности и дальнейшие шаги Благодарности Резюме Ресурсы Классификация, категоризация и пометка Введение в классификацию и категоризацию Процесс классификации Выбор схемы классификации Отбор признаков для категоризации Важность обучающих данныхИспользование экспертных оценок в качестве обучающих данных Оценка качества классификатора Внедрение классификатора в эксплуатацию Построение классификаторов документов с помощью Apache Lucene Классификация текстов с помощью Lucene Подготовка обучающих данных для классификатора MoreLikeThis Обучение классификатора MoreLikeThis Классификация документов с помощью классификатора МогеLikeThis Тестирование классификатора MoreLikeThis Классификатор MoreLikeThis в производитственной системе Обучение наивного байесовского классификатора в Apache Mahout Наивная байесовская классификация текста Подготовка обучающих данных Резервирование тестовых данных Обучение классификатора Тестирование классификатора Усовершенствованный процесс бутстрапинга Интеграция байесовского классификатора Mahout с Soir Классификация документов с помощью OpenNLP Регрессионные модели и классификация документов методом максимальной энтропии Подготовка обучающих данных для классификатора документов на основе алгоритма максимальной энтропии Обучение классификатора документов на основе алгоритма максимальной энтропии Тестирование классификатора документов на основе алгоритма максимальной энтропии Классификатор документов на основе алгоритма максимальной энтропии в производственной системе Построение рекомендателя меток с помощью Apache Soir Подготовка обучающих данных для рекомендателя меток Подготовка обучающих данных Обучение рекомендателя меток на основе Soir Создание рекомендаций меток Оценивание рекомендателя меток Резюме Ресурсы Пример вопросно-ответной системы Основы вопросно-ответной системыУстановка и запуск QA-системы Архитектура демонстрационной вопросно-ответной системы Установление смысла вопроса и порождение ответов Обучение классификатора типов ответов Разбиение вопроса на блоки Вычисление типа ответа Генерация запроса Ранжирование фрагментов-кандидатов Усовершенствование системы Резюме Ресурсы Неприрученный текст: на переднем крае Семантика, дискурс и прагматика: высшие уровни NLP Семантика Дискурс Прагматика Реферирование документов и наборов документов Извлечение отношений Обзор имеющихся подходовОбучение с учителемОбучение с частичным привлечением учителяОбучение без учителя Оценка Инструменты для извлечения отношений Выявление важного содержимого и людей Глобальная важность и авторитетность Персональная важность Ресурсы и ссылки на тему важности Распознавание эмоций с помощью анализа тональности Исторический обзор Инструменты и данные Базовый алгоритм определения тональности Дополнительные темы Библиотеки с открытым исходным кодом для анализа тональности Межъязыковой информационный поиск Резюме РесурсыПредметный указатель
 
РЕЗЮМЕ След >