ВВЕДЕНИЕ В КОРПУСНУЮ ЛИНГВИСТИКУ

Основные понятия корпусной лингвистики

Корпусная лингвистика - раздел компьютерной лингвистики, занимающийся разработкой общих принципов построения и использования лингвистических корпусов (корпусов текстов) с применением компьютерных технологий. Под лингвистическим, или языковым, корпусом текстов понимается большой, представленный в машиночитаемом виде, унифицированный, структурированный, размеченный, филологически компетентный массив языковых данных, предназначенный для решения конкретных лингвистических задач. В настоящее время существует множество определений понятия «корпус». Например, определение, приведенное в учебнике Э. Финегана, гласит: корпус - репрезентативное собрание текстов, обычно в машиночитаемом формате и включающее информацию о ситуации, в которой текст был произведен, такую как информация о говорящем, авторе, адресате или аудитории [42]. Википедия определяет корпусы как большие и структурированные наборы текстов (теперь обычно в электронном виде), которые используются для статистического анализа и проверки гипотез, проверки случаев встречаемости или обоснования языковых правил по определенным областям [62]. Т. МакЭнери и Э. Вилсон дают следующее определение: корпус - это собрание языковых фрагментов, отобранных в соответствии с четкими языковыми критериями для использования в качестве модели языка [51]. В.В. Рыков определяет корпус текстов как некоторое собрание текстов, в основе которого лежит логический замысел, логическая идея, объединяющая эти тексты и воплощенная в правилах организации текстов в корпус, алгоритме и программе анализа корпуса текстов, сопряженной с этим идеологии и методологии [31].

В приведенных определениях подчеркиваются основные черты современного корпуса текстов - цель («логическая идея»), машиночитаемый формат, репрезентативность как результат особой процедуры отбора, наличие металингвистической информации. Стандартизованное представление словесного материала на машинном носителе позволяет применять стандартные программы его обработки.

Целесообразность создания и смысл использования корпусов определяется следующими предпосылками:

  • 1) достаточно большой (репрезентативный) объем корпуса гарантирует типичность данных и обеспечивает полноту представления всего спектра языковых явлений;
  • 2) данные разного типа находятся в корпусе в своей естественной контекстной форме, что создает возможность их всестороннего и объективного изучения;
  • 3) однажды созданный и подготовленный массив данных может использоваться многократно, различными исследователями и в различных целях.

В понятие «корпус текстов» входит также система управления текстовыми и лингвистическими данными, которую в последнее время чаще всего называют корпусным менеджером (или корпус-менеджером) (англ, corpus manager). Это специализированная поисковая система, включающая программные средства для поиска данных в корпусе, получения статистической информации и предоставления пользователю результатов в удобной форме.

Поиск в корпусе позволяет по любому слову построить конкорданс - список всех употреблений данного слова в контексте со ссылками на источник. Корпусы могут использоваться для получения разнообразных справок и статистических данных о языковых и речевых единицах. В частности, на основе корпусов можно получить данные о частоте словоформ, лексем, грамматических категорий, проследить изменение частот и контекстов в различные периоды времени, получить данные о совместной встречаемости лексических единиц и т.д. Представительный массив языковых данных за определенный период позволяет изучать динамику процессов изменения лексического состава языка, проводить анализ лексикограмматических характеристик в разных жанрах и у разных авторов. Корпусы призваны служить также источником и инструментом многоаспектных лексикографических работ по подготовке разнообразных исторических и современных словарей. Данные корпусов могут быть использованы для построения и уточнения грамматик и в целях обучения языку. Более подробно возможности и примеры использования корпусов в лингвистических исследованиях будут рассмотрены в разделе 3.3.

Сегодня корпусная лингвистика часто понимается как относительно новый подход в лингвистике, который имеет дело с изучением использования языка в «реальной жизни» с помощью компьютеров и электронных корпусов. Корпусная лингвистика имеет, по крайней мере, две черты, дающие ей основание претендовать на положение самостоятельной дисциплины: 1) характер используемого словесного материала; 2) специфика инструментария.

Если такие разделы лингвистики как синтаксис, семантика и социолингвистика имеют целью описание или оценку языковой структуры или языкового использования, то корпусная лингвистика является более широким понятием, методологией, которую можно применить ко многим аспектам языковых исследований. Корпусную лингвистику иногда называют «пучком методов из разных областей лингвистических исследований» [49]. Как метод лингвистического анализа, корпусная лингвистика связана также с контрастивными исследованиями, направленными на установление фактов общего и отдельного между языками, диалектами или вариантами языка в ходе их сопоставительного изучения [8]. Многие виды лингвистического анализа наилучшим образом развиваются на прочной и обширной базе эмпирических данных.

Э. Финеган определяет корпусную лингвистику как деятельность, требующуюся для составления и использования корпуса, направленную на исследование естественного употребления языка [42]. В этом определении подчеркивается созидательная направленность корпусной лингвистики. Двойственный характер корпусной лингвистики (нацеленность как на создание, так и на использование корпусов текстов) обусловливается двойственным характером ее объекта - корпуса текстов, который, с одной стороны, представляет собой исходный речевой материал для корпусной лингвистики и для других лингвистических дисциплин; с другой стороны, является результатом деятельности корпусной лингвистики.

Можно сказать, что корпусная лингвистика имеет своим предметом теоретические основы и практические механизмы создания и использования представительных массивов языковых данных, предназначенных для лингвистических исследований в интересах широкого круга пользователей.

Существует проблема, связанная с терминологией корпусной лингвистики в русском языке, которая пока не установилась в силу следующих причин: ее относительно недавнее происхождение и ее зарождение в США и Великобритании, обусловившее тот факт, что терминология складывалась и продолжает складываться в недрах английского языка. Русские термины, в основном, представляют собой заимствования английских терминов; некоторые из них в других значениях давно существуют в русском языке. Так, русское слово «корпус» стало многозначным задолго до своего появления в качестве термина корпусной лингвистики. Употребление форм этого существительного является проблематичным, поскольку возможны варианты множественного числа «корпусы» и «корпуса». Для значения «массив», которое имеет место в случае языковых корпусов, именительный падеж множественного числа должен быть «корпусы» и, соответственно, прилагательное должно произноситься с ударением на первом слоге - «корпусный» (Большой толковый словарь русского языка, СПб., 1998). В то же время анализ узуса специалистов пока свидетельствует в пользу форм «корпуса», «корпусной», «корпусная», которые используются часто, так что можно, видимо, с осторожностью сказать, что в настоящее время этот вопрос остается открытым. В Приложении 2 приведены некоторые терминологические сочетания и однословные термины, выделенные из корпуса текстов по корпусной лингвистике.

Правила, регламентирующего употребление той или иной формы применительно к корпусной лингвистике, пока нет, хотя, как представляется, победить должен вариант «корпусы», поскольку он отличает терминологическое значение слова от его общеупотребительного значения. В данном учебнике авторы будут использовать именно этот вариант.

 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ ОРИГИНАЛ   След >