Меню
Главная
Авторизация/Регистрация
 
Главная arrow Информатика arrow Обработка неструктурированных текстов. Поиск, организация и манипулирование
Обработка неструктурированных текстов. Поиск, организация и манипулирование

Обработка неструктурированных текстов. Поиск, организация и манипулирование


ПРЕДИСЛОВИЕВСТУПЛЕНИЕБЛАГОДАРНОСТИОБ ЭТОЙ КНИГЕПредполагаемая аудиторияСтруктура книгиГрафические выделения и загрузка исходного кодаАвтор в сетиОБ ИЛЛЮСТРАЦИИ НА ОБЛОЖКЕГЛАВА 1. Готовимся к приручению текста1.1. Почему так важна задача обработки текста1.2. Предварительный обзор фактографической вопросно-ответной системы1.2.1. Здравствуй, доктор Франкенштейн1.3. Понять смысл текста трудно1.4. Прирученный текст1.5. Текст и интеллектуальные приложения: поиск и не только1.5.1. Поиск и сопоставление1.5.2. Извлечение информации1.5.3. Группировка информации1.5.4. Интеллектуальное приложение1.6. Резюме1.7. РесурсыГЛАВА 2. Основы приручения текста2.1. Основы лингвистики2.1.1. Категории слов2.1.2. Словосочетания и части предложения2.1.3. Морфология2.2. Популярные инструменты для обработки текста2.2.1. Инструменты для манипуляций со строками2.2.2. Лексемы и лексический анализ2.2.3. Частеречная разметка2.2.4. Стемминг2.2.5. Распознавание предложений2.2.6. Грамматика и грамматический анализ2.2.7. Моделирование последовательности2.3. Предобработка и выделение содержимого из файлов в распространенных форматах2.3.1. Важность предобработки2.3.2. Извлечение содержимого с помощью Apache Tika2.4. Резюме2.5. РесурсыГЛАВА 3. Поиск3.1. Пример фасетного поиска: Amazon.com3.2. Введение в концепции поиска3.2.1. Индексирование содержимого3.2.2. Ввод запроса пользователем3.2.3. Ранжирование документов с помощью векторной моделиКраткое знакомство с векторной моделью3.2.4. Отображение результатов3.3. Введение в поисковый сервер Apache Soir3.3.1. Первый запуск Soir3.3.2. Основные концепции Soir3.3.3. Проектирование схемы Soir3.4. Индексирование содержимого с помощью Apache Soir3.4.1. Индексирование данных в формате XML3.4.2. Извлечение и индексирование содержимого с помощью Soir и Apache Tika3.5. Поиск по содержимому в Apache Soir3.5.1. Параметры запроса к SoirПрограммный доступ к Soir3.5.2. Построение фасетов по извлеченному содержимому3.6. Факторы, влияющие на производительность поиска3.6.1. Оценка качественных показателей3.6.2. Оценка количественных показателей3.7. Повышение производительности поиска3.7.1. Совершенствование на уровне оборудования3.7.2. Повышение качества анализа3.7.3. Повышение качества обработки запросов3.7.4. Альтернативные модели оценивания3.7.5. Способы повышения производительности SoirПовышение производительности индексированияПроизводительность поиска3.8. Альтернативные поисковые системы3.9. Резюме3.10. РесурсыГЛАВА 4. Неточное сравнение строк4.1. Различные подходы к неточному сравнению строк4.1.1. Меры, основанные на множестве общих символовМера ЖаккараРасстояние Джаро-Винклера4.1.2. Редакционные расстоянияВычисление редакционного расстоянияНормировка редакционного расстоянияВзвешивание операций редактирования4.1.3. N-граммное редакционное расстояниеУлучшения метода n-граммного редакционного расстояния4.2. Нахождение строк, неточно совпадающих с данной4.2.1. Использование префиксного сравнения в Soir4.2.2. Использование префиксных деревьев для префиксного сравненияЧто такое префиксное дерево?Реализация префиксного дереваПрефиксные деревья в Soir4.2.3. Сравнение с помощью n-граммПоиск с помощью n-грамм в Soir4.3. Использование неточного сравнения строк в приложениях4.3.1. Добавления механизма автозаполнения к поискуИндексирование префиксов в SoirПолучение результатов префиксного поиска в SoirДинамическое заполнение поискового поля4.3.2. Проверка орфографии запросаКраткое описание нашего подходаРеализация функции «Возможно, вы имели в виду» в SoirИспользование встроенного в Soir компонента проверки орфографии4.3.3. Сопоставление записейКраткое описание нашего подходаНахождение потенциальных кандидатов с помощью SoirРанжирование потенциальных кандидатовОценка результатов4.4. Резюме4.5. РесурсыГЛАВА 5. Распознавание имен людей, географических названий и других сущностей5.1. Различные подходы к распознаванию именованных сущностей5.1.1. Применение правил для распознавания имен и названий5.1.2. Применение статистических классификаторов для распознавания имен и названий5.2. Основы распознавания сущностей в OpenNLP5.2.1. Нахождение имен и названий с помощью OpenNLP5.2.2. Интерпретация имен, распознанных OpenNLP5.2.3. Фильтрация имен на основе вероятности5.3. Подробнее о распознавании сущностей в ОреnNLP5.3.1. Распознавание разнородных сущностей в ОреnNLP5.3.2. Под капотом: как в OpenNLP распознаются имена5.4. Качество работы ОреnNLP5.4.1. Качество результатов5.4.2. Производительность5.4.3. Потребление памяти в ОреnNLP5.5. Настройка ОреnNLP для распознавания сущностей в новой предметной области5.5.1. Зачем и как обучают модель5.5.2. Обучение модели OpenNLP5.5.3. Изменение входных данных для модели5.5.4. Другой способ моделирования имен5.6. Резюме5.7. РесурсыГЛАВА 6. Кластеризация текста6.1. Кластеризация документов в Google News6.2. Основы кластеризации6.2.1. Три типа текстов, поддающихся кластеризации6.2.2. Выбор алгоритма кластеризации6.2.3. Определение сходства6.2.4. Пометка результатов6.2.5. Как оценивать результаты кластеризации6.3. Подготовка к созданию простого приложения кластеризации6.4. Кластеризация результатов поиска с помощью Carrot26.4.1. Использование Carrot2API6.4.2. Кластеризация результатов поиска Soir с помощью Carrot26.5. Кластеризация наборов документов с помощью Apache Mahout6.5.1. Подготовка данных к кластеризацииПрограммное создание векторовСоздание векторов из индекса Apache Lucene6.5.2. Кластеризация методом К-средних6.6. Тематическое моделирование с помощью Apache Mahout6.7. Качество кластеризации6.7.1. Отбор и уменьшение числа признаков6.7.2. Производительность и качество Carrot2Выбор алгоритма в Carrot26.7.3. Тесты производительности кластеризации в MahoutПодготовкаНастройка HADOOP.Векторизация содержимогоРезультаты измерения производительности кластеризации методом К-среднихРезультаты измерения производительности других алгоритмов кластеризации в MahoutИтоги тестов производительности и дальнейшие шаги6.8. Благодарности6.9. Резюме6.10. РесурсыГЛАВА 7. Классификация, категоризация и пометка7.1. Введение в классификацию и категоризацию7.2. Процесс классификации7.2.1. Выбор схемы классификации7.2.2. Отбор признаков для категоризации7.2.3. Важность обучающих данныхИспользование экспертных оценок в качестве обучающих данных7.2.4. Оценка качества классификатора7.2.5. Внедрение классификатора в эксплуатацию7.3. Построение классификаторов документов с помощью Apache Lucene7.3.1. Классификация текстов с помощью Lucene7.3.2. Подготовка обучающих данных для классификатора MoreLikeThis7.3.3. Обучение классификатора MoreLikeThis7.3.4. Классификация документов с помощью классификатора МогеLikeThis7.3.5. Тестирование классификатора MoreLikeThis7.3.6. Классификатор MoreLikeThis в производитственной системе7.4. Обучение наивного байесовского классификатора в Apache Mahout7.4.1. Наивная байесовская классификация текста7.4.2. Подготовка обучающих данных7.4.3. Резервирование тестовых данных7.4.4. Обучение классификатора7.4.5. Тестирование классификатора7.4.6. Усовершенствованный процесс бутстрапинга7.4.7. Интеграция байесовского классификатора Mahout с Soir7.5. Классификация документов с помощью OpenNLP7.5.1. Регрессионные модели и классификация документов методом максимальной энтропии7.5.2. Подготовка обучающих данных для классификатора документов на основе алгоритма максимальной энтропии7.5.3. Обучение классификатора документов на основе алгоритма максимальной энтропии7.5.4. Тестирование классификатора документов на основе алгоритма максимальной энтропии7.5.5. Классификатор документов на основе алгоритма максимальной энтропии в производственной системе7.6. Построение рекомендателя меток с помощью Apache Soir7.6.1. Подготовка обучающих данных для рекомендателя меток7.6.2. Подготовка обучающих данных7.6.3. Обучение рекомендателя меток на основе Soir7.6.4. Создание рекомендаций меток7.6.5. Оценивание рекомендателя меток7.7. Резюме7.8. РесурсыГЛАВА 8. Пример вопросно-ответной системы8.1. Основы вопросно-ответной системы8.2.Установка и запуск QA-системы8.3. Архитектура демонстрационной вопросно-ответной системы8.4. Установление смысла вопроса и порождение ответов8.4.1. Обучение классификатора типов ответов8.4.2. Разбиение вопроса на блоки8.4.3. Вычисление типа ответа8.4.4. Генерация запроса8.4.5. Ранжирование фрагментов-кандидатов8.5. Усовершенствование системы8.6. Резюме8.7. РесурсыГЛАВА 9. Неприрученный текст: на переднем крае9.1. Семантика, дискурс и прагматика: высшие уровни NLP9.1.1. Семантика9.1.2. Дискурс9.1.3. Прагматика9.2. Реферирование документов и наборов документов9.3. Извлечение отношений9.3.1. Обзор имеющихся подходовОбучение с учителемОбучение с частичным привлечением учителяОбучение без учителя9.3.2. Оценка9.3.3. Инструменты для извлечения отношений9.4. Выявление важного содержимого и людей9.4.1. Глобальная важность и авторитетность9.4.2. Персональная важность9.4.3. Ресурсы и ссылки на тему важности9.5. Распознавание эмоций с помощью анализа тональности9.5.1. Исторический обзор9.5.2. Инструменты и данные9.5.3. Базовый алгоритм определения тональности9.5.4. Дополнительные темы9.5.5. Библиотеки с открытым исходным кодом для анализа тональности9.6. Межъязыковой информационный поиск9.7. Резюме9.8. РесурсыПредметный указатель
 
РЕЗЮМЕ След >
 

Популярные страницы