Структура морфологической информации в НКРЯ

Морфологическая информация, приписываемая произвольному слову в тексте, состоит из четырех «полей», или групп помет:

s Лексема, которой принадлежит словоформа (указывается «словарная запись» данной лексемы и ее принадлежность к той или иной части речи).

^ Множество грамматических признаков данной лексемы, или словоклассифицирующие характеристики (например, род для существительного, переходность для глагола).

^ Множество грамматических признаков данной словоформы, или словоизменительные характеристики (например, падеж для существительного, число для глагола).

^ Информация о нестандартности грамматической формы, орфографических искажениях и т. п.

Семантическая разметка в Национальном корпусе русского языка

Семантическая информация в НКРЯ содержит три группы помет:

^ Разряд: имя собственное, возвратное местоимение и т.д.

^ Лексико-семантические характеристики: таксономия (тематический класс лексемы) — для имен существительных, прилагательных, глаголов и наречий; мереология (указание на отношения «часть — целое», «элемент — множество») — для предметных и непредметных имен; топология (топологический статус обозначаемого объекта) — для предметных имен; каузация — для глаголов; служебный статус — для глаголов; оценка — для предметных и непредметных имен, прилагательных и наречий.

Словообразовательные характеристики: морфо-семантические

(например, «диминутив» — уменьшительное, «семельфактив» — однократное действие); разряд производящего слова (например, отглагольное существительное); лексико-семантический (таксономический) тип производящего слова (например, наречие, образованное от прилагательного размера); морфологический тип словообразования (сложное слово).

Другие корпуса

Хельсинкский аннотированный корпус русских текстов ХАНКО (http://www.ling.helsinki.fi/projects/hanco/)

Машинный фонд русского языка (http://cfrl.ru/)

Корпус русского литературного языка (http://www.narusco.ru/)

 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ ОРИГИНАЛ   След >