Графематический анализ

Этап графематического анализа предназначен для выделения элементов структуры текста: параграфов, абзацев, предложений, отдельных слов и т. д. В задачу графематического анализа входят:

  • ? Выделение абзацев, заголовков, примечаний;
  • ? Выделение предложений из входного текста;
  • ? Разделение входного текста на слова, цифровые комплексы, формулы и т. д. Токенизацыя;
  • ? Сборка слов, написанных в разрядку;
  • ? Выделение устойчивых оборотов, не имеющих словоизменительных вариантов;
  • ? Выделение ФИО (фамилия, имя, отчество), когда имя и отчество написаны инициалами;
  • ? Выделение иностранных лексем, записанных латиницей;
  • ? Выделение электронных адресов и имен файлов;

Выделение предложений из сплошного текста — процедура необходимая для дальнейшего анализа текста в любой системе анализа естественных языков.

Что такое предложение? Первый ответ на этот вопрос — это что-то, заканчивающееся на символы «.», «!», или «?». Но если рассмотреть встречающиеся тексты более внимательно, то можно обнаружить, что «.» используется не только для определения конца предложения, но и для аббревиатур и сокращений, а иногда выполняет обе эти роли. Другие знаки пунктуации также могут использоваться для выделения фрагментов, которые мы могли бы идентифицировать как предложения. Иногда эти фрагменты выделяются такими знаками как «:», «;» и «—».

А что такое слово? Последовательность символов, ограниченных пробелами или знаками препинания? Обычно это так, но не всегда. Сложности представляют алфавитно-цифровые комплексы (3.142; 2/3; 15-летний) 31.12.2012), составные слова (кресло-кровать; Тот-кого-нельзя-называть), имена собственные (Санкт-Петербург), неразрывные неизменяемые словосочетания (итакдалее; такимобразом), интернет-адреса (http://yaDdex.ru) и т. д. Минимальные линейные компоненты текста, которые в дальнейшем рассматриваются как неделимые единицы, называются токенами.

 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ ОРИГИНАЛ   След >