Способы сравнения слов
Частотные словари, представленные в таблице 2.4 были получены с помощью диалоговой система классификации и анализа текстов Вега, разработанной в ИТМО и Экономико-математическом институте РАН. В ней используются два способа сравнения слов. Первый способ «по основе» заключается в том, что вначале определялся размер «основы» слова (здесь под основой понимается не грамматическая основа, а начальная часть слова). Основа определяет то количество символов, которое учитывается при сравнении двух слов между собой. Для подавляющего большинства слов размер основы коррелирует с размером самого слова (табл. 2.5).
Таблица 2.5. Размер основы слова
Длина слова |
1 |
2 |
3 |
4 |
5 |
6 |
7-10 |
11 |
12-14 |
15-17 |
18-20 |
21-23 |
>23 |
Длина основы |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
12 |
15 |
18 |
21 |
Алгоритм определения длины основы заключается в следующем. Во- первых, отбрасываются окончания -ся или -сь. Во-вторых, если словоформа оканчивается на одно из стандартных сочетаний букв, соответствующее окончание нужно «вычесть». Ниже приведен фрагмент таких окончаний:
Епс11 = «АЕИЙОУЫЬЮЯ»
Епб2 = «АМ АХ АЯ ЕВ ЕЕ ЕЙ ЕМ ЕТ НЕ ИИ ИЙ ИМ ИТ ИХ ИЮ ИЯ ОВ...»
ЕпбЗ = «АМИ ЕГО ЕМУ ИЕЙ ИЕМ ИМИ ИМИ ИТЬ ИЯМ ИЯХ ЛСЯ ОГО...»
Епб4 = «АЯСЯ ЕЕСЯ ЕМСЯ ЕНИЕ ЕНИИ ЕНИЙ ЕНИЮ ЕНИЯ ЕТСЯ ИЕСЯ...»
Епс15 = «ЕГОСЯ ЕНИЕМ ЕНИЯМ ЕНИЯХ ЕШЬСЯ ИТЬСЯ ОСТЕЙ ОСТЬЮ ...»
Если длина основы по таблице равна п, а после вычитания окончаний — т, то окончательно за основу берется начальный фрагмент слова, имеющий минимальную длину из этих двух вариантов.
Однако можно выделить достаточно большое количество слов, которые являются исключением из этого правила. Для таких «нестандартных» слов существует специальный вспомогательный словарь. Например, размер основы равен 3 для следующих слов: дочерью, дочка, дочкой. Основа для всех этих слов будет «ДОЧ». Таким образом, при сравнении сравнивая любое из этих слов со словом дочь, у которого длина основы тоже 3 (4 - 1 по списку окончаний), получается совпадение.
Второй способ сравнения слов «по лемме» основан на применении морфологического анализатора. Однако результаты морфологического анализа показывают, что около 18 процентов словоформ произведены не от одной леммы, а от нескольких (см. раздел 3.1). В случае такого неоднозначного разбора слова возникает вопрос: какую лемму выбрать? Известно, что полностью снять неоднозначность можно только в том случае, если произвести синтаксический и семантический разбор предложения. Разбор фрагмента предложения (окно на 9 слов) позволяет снизить неоднозначность до 1.5%. Однако и при разборе одного слова можно предпринять некоторые меры по снижению неоднозначности.
Так, например, повелительные формы глаголов и деепричастия — благодаря, для, зря, мая, моря, нашей, некая, почти, при, секретарь, три, хотя — встречаются крайне редко и при анализе их можно удалять.
Если слово начинается с прописной буквы, то предпочтение отдается именам собственным. Так, в предложении Я увидел Варвару последнее слов получит лемму ВАРВАРА, а в предложении Я подошел к варвару последнее слово получит лемму ВАРВАР.
Леммы выбираются в зависимости от грамматических характеристик в определенном порядке, причем приоритет отдается знаменательным частям речи: наречиям, существительным, прилагательным и глаголам. Например, при разборе слова совести получаются две леммы: СОВЕСТИТЬ и СОВЕСТЬ. Поскольку в списке частей речи глагол размещен после существительного, первая лемма удаляется, остается существительное.