Корпуса текстов

Корпус текстов — это некоторое собрание текстов, в основе которого лежит логический замысел, логическая идея, объединяющая эти тексты. Воплощение этой логической идеи: правила организации текстов в корпус алгоритмы и программы анализа корпуса текстов сопряжённая с этим идеология и методология

Первый корпус текстов (так называемый Брауновский корпус) был создан в США в 60-е годы и был предназначен для отражения лингвистических особенностей американской печатной прозы.

Лингвистический, или языковой, корпус текстов — большой, представленный в электронном виде, унифицированный, структурированный, размеченный, филологически компетентный массив языковых данных, предназначенный для решения конкретных лингвистических задач.

Таблица 2.6. Отличия компьютерных корпусов текстов

Корпус текстов Пушкина

Компьютерный корпус текстов

Машинный носитель

-(+)

+

Разметка

-(+)

+

Способ отбора

-

+

Репрезентативность

-

+

Репрезентативность — важнейшее свойство корпуса. Корпус должен с максимальной объективностью представить разнообразие изучаемого явления, и дать в то же время объективную картину бытования этого явления в речевой практике носителей данного языка.

Назначение языкового корпуса — показать функционирование лингвистических единиц в их естественной контекстной среде.

На основе корпуса можно получить данные:

^ о частоте словоформ, лексем, грамматических категорий,

^ об изменениях частот

^ об изменениях контекстов в различные периоды времени ^ о поведении языковых единиц разных авторов ^ о совместной встречаемости лексических единиц ^ об особенностях их сочетаемости, управления ^ и т. д.

Классификация корпусов текстов

По степени организации и структурированности:

^ Электронный архив — это тексты на электронном носителе, но их форма, представленная на машинном носителе, не стандартизирована и не унифицирована.

^ Электронная библиотека — тексты здесь представлены однородным и стандартизированным образом.

^ Корпус текстов — форма стандартизирована и унифицирована, тексты предназначены для отражения части лингвистической реальности.

По индексации:

^ Простой.

^ Аннотированный.

По языку:

^ Одноязычный;

^ Двуязычный;

^ Многоязычный.

По способу применения и использования корпуса:

^ Исследовательский;

^ Иллюстративный;

^ Параллельный.

 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ ОРИГИНАЛ   След >