Семантический анализ

Семантика (от греч. асрауикос; — обозначающий) — часть анализа, направленная на решение задач, связанных с возможностью определения значения слова в зависимости от контекста и конкретной ситуации, понимания смысла фразы. Элемент значения языкового знака называется семой (используются также термины семантический компонент, семантический множитель, семантический маркер, дифференциальный признак и некоторые другие).

Например, холостяк = [взрослый] [неженатый] [мужчина]; мужчина = [человек] [мужского пола] и т. д. Однако представление значения слова в виде набора сем часто не позволяет объяснить его реальное употребление. Например, никому не придет в голову назвать холостяком папу римского. Одна из основных задач семантической декомпозиции состоит в том, чтобы объяснить и даже предсказать особенности сочетаемости толкуемого слова. Например, мы говорим пить чай, а не есть чай потому, что слова чай и пить содержат сему [жидкий], а слово есть — нет.

Во многих случаях смысловой элемент состоит из нескольких слов. Последовательность из двух или более слов, частотность совместного появления которых в тексте выше, чем ожидаемая вероятность их совместного появления, называется коллокацией. В отличие от свободного словосочетания {красивый мальчик/хороший мальчик/красивый цветок), коллока- ция определяет, какие слова могут быть использованы вместе, например, какими предлогами управляет тот, или иной глагол (уйти от кого-то, чего-то, но прийти к кому-то/чему-то), или какие глаголы и существительные обычно используются вместе. Например, можно сказать мощный двигатель и крепкий чай, но нельзя, не меняя значения, заменить эти коллока- ции на словосочетания крепкий двигатель и мощный чай соответственно. В коллокациях выбор одного из компонентов (ключевого слова) осуществляется по смыслу, а выбор второго (коллоканта) зависит от выбора первого (например, ставить условия — выбор глагола ставить определяется традицией и зависит от существительного условия, при слове предложение будет другой глагол — вносить).

Коллокации частично некомпозициональны, то есть значение целого не равно сумме значений частей. Полностью некомпозициональные словосочетания, у которых смысл никак не соотносится со смыслом отдельных слов, называются идиомами (дать дуба, медведь на ухо наступил).

К коллокациям также часто причисляют составные топонимы и другие совместно употребляемые наименования (крейсер «Варяг», Кировский завод). В некоторых случаях коллокации могут быть разрывными: «жизнь кипит» и «жизнь его постоянно кипит».

С помощью компьютерных технологий коллокации могут автоматически извлекаться из текстов. Для этого используются различные меры ассоциативной связи, которые оценивают, является ли взаимное появление лексических единиц случайным, или оно статистически значимо. Однако часто статистически значимое совместное появление двух слов не образует коллокации, например, словосочетание Гарри Поттер в текстах про Гарри Поттера.

 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ ОРИГИНАЛ   След >