Корпуса текстов
Корпус текстов — это некоторое собрание текстов, в основе которого лежит логический замысел, логическая идея, объединяющая эти тексты. Воплощение этой логической идеи: правила организации текстов в корпус алгоритмы и программы анализа корпуса текстов сопряжённая с этим идеология и методология
Первый корпус текстов (так называемый Брауновский корпус) был создан в США в 60-е годы и был предназначен для отражения лингвистических особенностей американской печатной прозы.
Лингвистический, или языковой, корпус текстов — большой, представленный в электронном виде, унифицированный, структурированный, размеченный, филологически компетентный массив языковых данных, предназначенный для решения конкретных лингвистических задач.
Таблица 2.6. Отличия компьютерных корпусов текстов
Корпус текстов Пушкина |
Компьютерный корпус текстов |
|
Машинный носитель |
-(+) |
+ |
Разметка |
-(+) |
+ |
Способ отбора |
- |
+ |
Репрезентативность |
- |
+ |
Репрезентативность — важнейшее свойство корпуса. Корпус должен с максимальной объективностью представить разнообразие изучаемого явления, и дать в то же время объективную картину бытования этого явления в речевой практике носителей данного языка.
Назначение языкового корпуса — показать функционирование лингвистических единиц в их естественной контекстной среде.
На основе корпуса можно получить данные:
^ о частоте словоформ, лексем, грамматических категорий,
^ об изменениях частот
^ об изменениях контекстов в различные периоды времени ^ о поведении языковых единиц разных авторов ^ о совместной встречаемости лексических единиц ^ об особенностях их сочетаемости, управления ^ и т. д.
Классификация корпусов текстов
По степени организации и структурированности:
^ Электронный архив — это тексты на электронном носителе, но их форма, представленная на машинном носителе, не стандартизирована и не унифицирована.
^ Электронная библиотека — тексты здесь представлены однородным и стандартизированным образом.
^ Корпус текстов — форма стандартизирована и унифицирована, тексты предназначены для отражения части лингвистической реальности.
По индексации:
^ Простой.
^ Аннотированный.
По языку:
^ Одноязычный;
^ Двуязычный;
^ Многоязычный.
По способу применения и использования корпуса:
^ Исследовательский;
^ Иллюстративный;
^ Параллельный.