Задачи лингвистических информационных технологий

s Распознавание звучащей речи и синтез речи по тексту. Первое устройство для распознавания речи появилось в 1952 году, оно могло распознавать произнесённые человеком цифры. Существует несколько основных способов распознавания речи. Распознавание отдельных команд из небольшого заранее заданного словаря позволяет достичь самой высокой достоверности распознавания. Примером использования является голосовая навигация по сайтам. Распознавание фраз, соответствующих определенным заданным правилам (грамматике) широко применяется в системах голосового самообслуживания. Поиск ключевых слов в потоке слитной речи, в этом случае речь не полностью преобразуется в текст — в ней автоматически находятся лишь те участки, которые содержат заданные слова или словосочетания. Используется в поисковых системах, в системах мониторинга речи. Распознавание слитной речи на большом словаре — эта технология наиболее близка к мечте человека о взаимодействии человека и машины — все, что сказано, дословно преобразуется в текст. Поэтому иногда эта технология так и называется STT — speech to text. До конца эта задача не решена нигде в мире, однако, достоверность распознавания уже достаточно высока для использования технологии на практике.

s Поддержка ввода текста на электронные носители. Одним из первых приложений в этом направлении были программы автоматического переноса слов и программы орфографической проверки текста (спеллеры). Эти программы обеспечивают коррекцию на лексико-морфологическом и синтаксическом уровне, т. е. производят 1) сличение входа со списком допустимых структур (распознавание с дискретным входом) и, в случае неудачи, 2) поиск ближайшего соответствия. Близки к этим задачам также распознавание печатного и рукописного текста и автозавершение.

s Машинный перевод. Первые программы перевода были построены более 50 лет назад и были основаны на простейшей стратегии пословного перевода. Однако довольно быстро было осознано, что машинный перевод требует полной лингвистической модели, учитывающей все уровни языка, вплоть до семантики и прагматики. В настоящее время существует целый спектр компьютерных систем перевода разного качества, но, несмотря на многие десятилетия развития всего этого направления, в целом задача машинного перевода еще весьма далека до полного решения.

s Информационный поиск. Создание поискового образа документа предполагает индексирование его текста, т.е. выделение в нем ключевых слов. Поскольку очень часто гораздо точнее тему и содержание документа отображают не отдельные слова, а словосочетания, в качестве ключевых слов стали рассматриваться словосочетания. Это существенно усложнило процедуру индексирования документов, так как для отбора значимых словосочетаний текста потребовалось использовать различные комбинации статистических и лингвистических критериев.

s Компрессия текста (реферирование и аннотирование). Решение этой задачи состоит из двух этапов: 1) сегментация на высказывания (части высказываний) и затем 2) выбор наиболее значимых (синтез). Реферирование текста — сокращение его объема и получение его краткого изложения — реферата. Общий реферат может составляться также для нескольких близких по теме документов. Основным методом автоматического реферирования является отбор наиболее значимых предложений реферируемого текста, для чего обычно сначала вычисляются ключевые слова текста, и рассчитывается коэффициент значимости предложений текста. Близкая к реферированию задача — аннотирование текста документа, т. е. составление его аннотации. В простейшей форме аннотация представляет собой перечень основных тем текста, для выделения которых могут использоваться процедуры индексирования.

s Классификация текстов. При создании больших коллекций документов актуальны задачи классификации и кластеризации текстов с целью создания классов близких по теме документов. Классификация означает отнесение каждого документа к определенному классу с заранее известными параметрами, а кластеризация — разбиение множества документов на кластеры, т. е. подмножества тематически близких документов. Очень близка к классификации задача рубрицирования текста — его отнесение к одной из заранее известных тематических рубрик (обычно рубрики образуют иерархическое дерево тематик). Задача классификации получает все большее распространение, она решается, например, при распознавании спама, а сравнительно новое приложение — классификация SMS- сообщений в мобильных устройствах.

s Извлечение фактов и знаний (Information Extraction). Извлечение информации из текстов часто требуется при решении задач экономической и производственной аналитики. Для этого осуществляется выделение в тексте ЕЯ определенных объектов — именованных сущностей (имен, персоналий, географических названий), их отношений и связанных с ними событий. Как правило, это реализуется на основе частичного синтаксического анализа текста, позволяющего выполнять, например, обработку потоков новостей от информационных агентств.

s Анализ нормативных текстов. Тексты законов, постановлений, планы работ анализируются на предмет выявления противоречий, логических пропусков и т. д. Так, например, анализ одного из региональных законов выявил, что в нем полностью описано (кто выполняет, что выполняет, форма отчетности и т. д.) только 30% необходимых действий. Естественно, такой закон нормально функционировать не может.

s Анализ «под заказ» — распознавание заранее заданных сюжетных схем.

s Вопросно-ответные системы (Question Answering). Эта задача решается путем определения типа вопроса, поиском текстов, потенциально содержащих ответ на этот вопрос, и извлечением ответа из этих текстов.

Задачи реферирования, выделения феноменов и понятий, классификации и кластеризации, ответов на запросы, тематического индексирования и поиска по ключевым словам принято относить к технологиям Text Mining, т. е. интеллектуального анализа текстов.

s Диалог с компьютерными системами на естественном языке. Наиболее часто эта задача решалась для специализированных баз данных — в этом случае язык запросов достаточно ограничен (лексически и грамматически), что позволяет использовать упрощенные модели языка. Запросы к базе, сформулированные на ЕЯ, переводятся на формальный язык, после чего выполняется поиск нужной информации и строится соответствующая фраза ответа.

 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ ОРИГИНАЛ   След >