Омонимия в русском языке

Во многих случаях одной словоформе можно приписать несколько наборов параметров. Такая ситуация называется омонимией. Омонимы (от греч. оро<; — одинаковый и оуора — имя) — разные по значению, но одинаковые по звучанию и написанию единицы языка. Понятие омонима близко к понятию многозначности, но не совпадает с ним. Различают несколько типов омонимии.

Омонимия частеречная — словоформы относятся к различным частям речи: «стали» {сталь) и «стали» {стать).

Омонимия лексическая возникает вследствие звукового совпадения различных по происхождению слов, например рысь (бег / животное); в результате полного расхождения значений многозначного слова, например мир (вселенная / отсутствие войны, вражды); при параллельном словообразовании от той же основы, например тройка (лошадей / отметка).

Внутри одной части речи омонимия может быть полная, когда совпадают парадигмы обоих слов или частичная, когда в парадигмах имеются различающиеся формы, например ласка (животное / проявление нежности) расходятся в форме родительного падежа множественного числа {ласокласк).

Грамматические омонимы, или омоформы — слова, совпадающие лишь в отдельных формах. Грамматическая омонимия характерна для слов, относящихся к разным частям речи, однако возможна и внутри одной части речи, например пришли (прислать /прийти), лечу (лечить / лететь).

Морфологическая омонимия — одной словоформе, образованной от одной и той же леммы, может быть приписано несколько наборов параметров. Например, слово мамы образуется от леммы МАМА, возможные варианты: ед. ч., род. пад. или мн. ч., им. пад.

Омонимы русского языка собраны в словаре омонимов [3]. В [12] выделено 58 типов частеречной омонимии, наиболее распространенные из них приведены в табл. 3.1.

Тип омонимии

Кол-во

омонимов

Примеры

Нареч. / Крат. прил.(прич.)

922

совершенно, адекватно, безумно...

Глаг. / Сущ.

878

берег, вызову, души...

Сущ. /Прил.

379

больной, дорогой, это...

Сущ. / Крат. прил.(прич.)

263

гол, долги, знаком ...

Сущ. / Деепр.

167

пролив, буря, нагоняя...

Сущ. / Нареч.

107

часами, летом, бегом...

Глаг. / Сравн. степ.

80

темней, умней, красней...

Глаг / Крат. прил.(прич.)

77

допустим, одержим, сравним...

Предикат / Нареч. /Крат. прил.

66

важно, понятно, тревожно...

Сущ. / Сравн. степ.

26

суше, круче, чаще...

Инф. / Сущ.

15

вести, мести, сволочь...

Глаг. / Нареч. /Крат. прил.

14

вяло, пошло, убито...

Глаг. / Прил.

14

мой, синим, целую...

Деепр. / Прил.

11

скупая, строгая, заезжая...

Нареч. / Сравн. степ.

10

меньше, севернее, дольше...

Компьютерные морфологические анализаторы бывают двух основных типов. Первый использует словарь всех существующих в языке словоформ, при каждой из которых указаны лемма и набор параметров. Анализаторы второго типа подбирают допустимые леммы и параметры, учитывая словоизменительные классы и наборы окончаний. Анализаторы первого типа проще и работают быстрее, но требуют огромных словарных баз на несколько миллионов словоформ.

Практика показывает, что примерно в 50% случаев имеет какая-либо форма омонимии, и набор морфологических признаков оказывается неоднозначным. Уменьшить неоднозначность можно с помощью синтаксического и семантического анализа, а также используя статистические методы. Например, отбрасываются как крайне маловероятные (хотя грамматически возможные) такие варианты как для (убираем деепричастие от глагола длить, остается предлог), пять (убираем повелительное наклонение от глагола пятить, остается числительное), соков (убираем краткую форму прилагательного соковый, остается род. пад. от существительного сок).

Другой проблемой, с которой приходится сталкиваться уже на этапе морфологического анализа является разбор слов, отсутствующих в словаре. Казалось бы, число слов, используемых в речи или на письме не так уж велико. Так, например, в художественных и публицистических произведениях А. С. Пушкина, а также в его письмах и деловых бумагах встречается около 20 тысяч слов. Как указывалось выше, словарь Зализняка содержит свыше 100 тысяч слов. Словарь, используемый в семантико- синтаксическом анализаторе SemSin, разработанном в ИТМО и Экономико-математическом институте РАН [8], насчитывает примерно 177 тысяч лексем. Тем не менее, при анализе текстов трех романов Гончарова общим объемом 467 тысяч словоформ было выявлено около 1300 новых слов. Среди них встречаются имена собственные, прилагательные, существительные, в меньшем количестве глаголы и наречия.

Еще хуже обстоит дело с текстами из интернета. Огромное количество искаженных слов, опечаток, неологизмов крайне затрудняет их анализ. Поэтому современные системы обязательно имеют в своем составе модули, облегчающие пополнение словаря, и модули обработки некорректно написанных слов. В некоторых системах новая лексема и тип словоизменения выводятся из состава слова (приставки, суффиксы, окончания). Позволяя резко уменьшить количество ручного труда, такие системы, тем не менее, зачастую допускают грубые ошибки.

Процесс снятия омонимии часто называется дизамбигуацией (от disambiguation — устранение конфликтов, неоднозначностей). Естественно, для проведения дизамбигуации необходим анализ не только неоднозначного слова, но и окружающего контекста. В той или иной степени соответствующие методы опираются на представления о частоте встречаемости двух-, трех- и многословных сочетаний. Например, в предложении Лошадь перешла на рысь сочетание перейти на рысь еще не гарантирует того, что рысь — это тип бега (сравните: Болезнь перешла на рысь).

 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ ОРИГИНАЛ   След >