Обработка неструктурированных текстов. Поиск, организация и манипулирование

ПРЕДИСЛОВИЕВСТУПЛЕНИЕБЛАГОДАРНОСТИОБ ЭТОЙ КНИГЕПредполагаемая аудиторияСтруктура книгиГрафические выделения и загрузка исходного кодаАвтор в сетиОБ ИЛЛЮСТРАЦИИ НА ОБЛОЖКЕГотовимся к приручению текстаПочему так важна задача обработки текстаПредварительный обзор фактографической вопросно-ответной системыЗдравствуй, доктор ФранкенштейнПонять смысл текста трудноПрирученный текстТекст и интеллектуальные приложения: поиск и не толькоПоиск и сопоставлениеИзвлечение информацииГруппировка информацииИнтеллектуальное приложениеРезюмеРесурсыОсновы приручения текстаОсновы лингвистикиКатегории словСловосочетания и части предложенияМорфологияПопулярные инструменты для обработки текстаИнструменты для манипуляций со строкамиЛексемы и лексический анализЧастеречная разметкаСтеммингРаспознавание предложенийГрамматика и грамматический анализМоделирование последовательностиПредобработка и выделение содержимого из файлов в распространенных форматахВажность предобработкиИзвлечение содержимого с помощью Apache TikaРезюмеРесурсыПоискПример фасетного поиска: Amazon.comВведение в концепции поискаИндексирование содержимогоВвод запроса пользователемРанжирование документов с помощью векторной моделиКраткое знакомство с векторной модельюОтображение результатовВведение в поисковый сервер Apache SoirПервый запуск SoirОсновные концепции SoirПроектирование схемы SoirИндексирование содержимого с помощью Apache SoirИндексирование данных в формате XMLИзвлечение и индексирование содержимого с помощью Soir и Apache TikaПоиск по содержимому в Apache SoirПараметры запроса к SoirПрограммный доступ к SoirПостроение фасетов по извлеченному содержимомуФакторы, влияющие на производительность поискаОценка качественных показателейОценка количественных показателейПовышение производительности поискаСовершенствование на уровне оборудованияПовышение качества анализаПовышение качества обработки запросовАльтернативные модели оцениванияСпособы повышения производительности SoirПовышение производительности индексированияПроизводительность поискаАльтернативные поисковые системыРезюмеРесурсыНеточное сравнение строкРазличные подходы к неточному сравнению строкМеры, основанные на множестве общих символовМера ЖаккараРасстояние Джаро-ВинклераРедакционные расстоянияВычисление редакционного расстоянияНормировка редакционного расстоянияВзвешивание операций редактированияN-граммное редакционное расстояниеУлучшения метода n-граммного редакционного расстоянияНахождение строк, неточно совпадающих с даннойИспользование префиксного сравнения в SoirИспользование префиксных деревьев для префиксного сравненияЧто такое префиксное дерево?Реализация префиксного дереваПрефиксные деревья в SoirСравнение с помощью n-граммПоиск с помощью n-грамм в SoirИспользование неточного сравнения строк в приложенияхДобавления механизма автозаполнения к поискуИндексирование префиксов в SoirПолучение результатов префиксного поиска в SoirДинамическое заполнение поискового поляПроверка орфографии запросаКраткое описание нашего подходаРеализация функции «Возможно, вы имели в виду» в SoirИспользование встроенного в Soir компонента проверки орфографииСопоставление записейКраткое описание нашего подходаНахождение потенциальных кандидатов с помощью SoirРанжирование потенциальных кандидатовОценка результатовРезюмеРесурсыРаспознавание имен людей, географических названий и других сущностейРазличные подходы к распознаванию именованных сущностейПрименение правил для распознавания имен и названийПрименение статистических классификаторов для распознавания имен и названийОсновы распознавания сущностей в OpenNLPНахождение имен и названий с помощью OpenNLPИнтерпретация имен, распознанных OpenNLPФильтрация имен на основе вероятностиПодробнее о распознавании сущностей в ОреnNLPРаспознавание разнородных сущностей в ОреnNLPПод капотом: как в OpenNLP распознаются именаКачество работы ОреnNLPКачество результатовПроизводительностьПотребление памяти в ОреnNLPНастройка ОреnNLP для распознавания сущностей в новой предметной областиЗачем и как обучают модельОбучение модели OpenNLPИзменение входных данных для моделиДругой способ моделирования именРезюмеРесурсыКластеризация текстаКластеризация документов в Google NewsОсновы кластеризацииТри типа текстов, поддающихся кластеризацииВыбор алгоритма кластеризацииОпределение сходстваПометка результатовКак оценивать результаты кластеризацииПодготовка к созданию простого приложения кластеризацииКластеризация результатов поиска с помощью Carrot2Использование Carrot2APIКластеризация результатов поиска Soir с помощью Carrot2Кластеризация наборов документов с помощью Apache MahoutПодготовка данных к кластеризацииПрограммное создание векторовСоздание векторов из индекса Apache LuceneКластеризация методом К-среднихТематическое моделирование с помощью Apache MahoutКачество кластеризацииОтбор и уменьшение числа признаковПроизводительность и качество Carrot2Выбор алгоритма в Carrot2Тесты производительности кластеризации в MahoutПодготовкаНастройка HADOOP.Векторизация содержимогоРезультаты измерения производительности кластеризации методом К-среднихРезультаты измерения производительности других алгоритмов кластеризации в MahoutИтоги тестов производительности и дальнейшие шагиБлагодарностиРезюмеРесурсыКлассификация, категоризация и пометкаВведение в классификацию и категоризациюПроцесс классификацииВыбор схемы классификацииОтбор признаков для категоризацииВажность обучающих данныхИспользование экспертных оценок в качестве обучающих данныхОценка качества классификатораВнедрение классификатора в эксплуатациюПостроение классификаторов документов с помощью Apache LuceneКлассификация текстов с помощью LuceneПодготовка обучающих данных для классификатора MoreLikeThisОбучение классификатора MoreLikeThisКлассификация документов с помощью классификатора МогеLikeThisТестирование классификатора MoreLikeThisКлассификатор MoreLikeThis в производитственной системеОбучение наивного байесовского классификатора в Apache MahoutНаивная байесовская классификация текстаПодготовка обучающих данныхРезервирование тестовых данныхОбучение классификатораТестирование классификатораУсовершенствованный процесс бутстрапингаИнтеграция байесовского классификатора Mahout с SoirКлассификация документов с помощью OpenNLPРегрессионные модели и классификация документов методом максимальной энтропииПодготовка обучающих данных для классификатора документов на основе алгоритма максимальной энтропииОбучение классификатора документов на основе алгоритма максимальной энтропииТестирование классификатора документов на основе алгоритма максимальной энтропииКлассификатор документов на основе алгоритма максимальной энтропии в производственной системеПостроение рекомендателя меток с помощью Apache SoirПодготовка обучающих данных для рекомендателя метокПодготовка обучающих данныхОбучение рекомендателя меток на основе SoirСоздание рекомендаций метокОценивание рекомендателя метокРезюмеРесурсыПример вопросно-ответной системыОсновы вопросно-ответной системыУстановка и запуск QA-системыАрхитектура демонстрационной вопросно-ответной системыУстановление смысла вопроса и порождение ответовОбучение классификатора типов ответовРазбиение вопроса на блокиВычисление типа ответаГенерация запросаРанжирование фрагментов-кандидатовУсовершенствование системыРезюмеРесурсыНеприрученный текст: на переднем краеСемантика, дискурс и прагматика: высшие уровни NLPСемантикаДискурсПрагматикаРеферирование документов и наборов документовИзвлечение отношенийОбзор имеющихся подходовОбучение с учителемОбучение с частичным привлечением учителяОбучение без учителяОценкаИнструменты для извлечения отношенийВыявление важного содержимого и людейГлобальная важность и авторитетностьПерсональная важностьРесурсы и ссылки на тему важностиРаспознавание эмоций с помощью анализа тональностиИсторический обзорИнструменты и данныеБазовый алгоритм определения тональностиДополнительные темыБиблиотеки с открытым исходным кодом для анализа тональностиМежъязыковой информационный поискРезюмеРесурсыПредметный указатель
 
РЕЗЮМЕ След >