Графематический анализ
Этап графематического анализа предназначен для выделения элементов структуры текста: параграфов, абзацев, предложений, отдельных слов и т. д. В задачу графематического анализа входят:
- ? Выделение абзацев, заголовков, примечаний;
- ? Выделение предложений из входного текста;
- ? Разделение входного текста на слова, цифровые комплексы, формулы и т. д. Токенизацыя;
- ? Сборка слов, написанных в разрядку;
- ? Выделение устойчивых оборотов, не имеющих словоизменительных вариантов;
- ? Выделение ФИО (фамилия, имя, отчество), когда имя и отчество написаны инициалами;
- ? Выделение иностранных лексем, записанных латиницей;
- ? Выделение электронных адресов и имен файлов;
Выделение предложений из сплошного текста — процедура необходимая для дальнейшего анализа текста в любой системе анализа естественных языков.
Что такое предложение? Первый ответ на этот вопрос — это что-то, заканчивающееся на символы «.», «!», или «?». Но если рассмотреть встречающиеся тексты более внимательно, то можно обнаружить, что «.» используется не только для определения конца предложения, но и для аббревиатур и сокращений, а иногда выполняет обе эти роли. Другие знаки пунктуации также могут использоваться для выделения фрагментов, которые мы могли бы идентифицировать как предложения. Иногда эти фрагменты выделяются такими знаками как «:», «;» и «—».
А что такое слово? Последовательность символов, ограниченных пробелами или знаками препинания? Обычно это так, но не всегда. Сложности представляют алфавитно-цифровые комплексы (3.142; 2/3; 15-летний) 31.12.2012), составные слова (кресло-кровать; Тот-кого-нельзя-называть), имена собственные (Санкт-Петербург), неразрывные неизменяемые словосочетания (итакдалее; такимобразом), интернет-адреса (http://yaDdex.ru) и т. д. Минимальные линейные компоненты текста, которые в дальнейшем рассматриваются как неделимые единицы, называются токенами.