Национальный корпус русского языка (НКРЯ)
Национальный корпус представляет данный язык на определенном этапе (или этапах) его существования и во всём многообразии жанров, стилей, территориальных и социальных вариантов и т. п. Национальный корпус имеет две важные особенности. Во-первых, он характеризуется представительностью, или сбалансированным составом текстов. Это означает, что корпус содержит по возможности все типы письменных и устных текстов, представленные в данном языке (художественные разных жанров, публицистические, учебные, научные, деловые, разговорные, диалектные и т. п.), и что все эти тексты входят в корпус по возможности пропорционально их доле в языке соответствующего периода. Следует иметь в виду, что хорошая представительность достигается только при значительном объеме корпуса (десятки и сотни миллионов словоупотреблений).
Во-вторых, корпус содержит особую дополнительную информацию о свойствах входящих в него текстов (так называемую разметку, или аннотацию). Разметка — главная характеристика корпуса, она отличает корпус от простых коллекций (или «библиотек») текстов, в изобилии представленных в современном интернете, в том числе и на русском языке (таких, как, по-видимому, наиболее известная «Библиотека Мошкова» или, например, «Русская виртуальная библиотека»). Однако такие библиотеки в необработанном виде для научных исследований языка пригодны очень ограниченно. Не следует забывать также, что библиотеки создаются теми, кому интересно в большей степени содержание текстов, чем их языковые качества. Национальный корпус, в отличие от электронной библиотеки, — это не собрание «интересных» или «полезных» текстов; это собрание текстов, интересных или полезных для изучения языка. А такими могут оказаться и роман второстепенного писателя, и запись обычного телефонного разговора, и типовой договор аренды и т.п. — наряду, конечно, с классическими произведениями художественной литературы.
Чем богаче и разнообразнее разметка, тем выше научная и учебная ценность корпуса. В Национальном корпусе русского языка в настоящее время используется пять типов разметки: метатекстовая, морфологическая (словоизменительная), синтаксическая, акцентная и семантическая.
Разметка
Англ.', tagging, annotation.
Разметка — приписывание текстам и их компонентам специальных меток.
Виды разметки:
S экстралингвистическая (метаразметка) — сведения об авторе и сведения о тексте: автор, название, год и место издания, жанр, тематика; s структурная — глава, абзац, предложение, словоформа s собственно лингвистическая, в том числе:
- • Морфологическая, part-of-speech tagging (POS-tagging)
- ? Синтаксическая — связи между словами (предикативные, предложные, союзные,...)
- ? Семантическая — предметные/непредметные имена, части чего- либо, типы действий,...
- ? Анафорическая — смысл одного элемента текста определяется смыслом другого (Космонавт вернулся на борт станции. Он_ сообщил, что чувствует себя нормально)
s Просодическая — ударения, ритмика речи, логические ударения,... s и т. д.