Основные направления компьютерной лингвистики
Анализ текстов на естественном языке.
В январе 1954 г. в рамках так называемого Джорджтаунского проекта группа американских лингвистов выдвинула идею, продемонстрировала полностью автоматический перевод 60 предложений с русского языка на английский. Организаторы эксперимента уверяли, что в течение трёх- пяти лет проблема машинного перевода будет решена. Идея заинтересовала лингвистов многих стран и активизировала работы в области анализа текстов. В ходе этих работ надо было прежде всего ответить на вопрос: «Существуют ли строгие формальные правила, по которым строится структура предложения и структура текста?» Если о структуре предложения лингвисты накопили много материала, то структура текста ими не изучалась.
В результате проведенных исследований стало ясно, что за каждым текстом (в том числе и за отдельным предложением, являющимся своего рода мини-текстом) скрывается не одна, а несколько формальных структур, которые можно разделить на три уровня.
Первый уровень — это поверхностная синтаксическая структура.
В этой структуре каждое предложение текста рассматривается изолированно от других и для каждого проводится что-то вроде разбора предложения по его членам, как все мы делали в школе. Выделяются подлежащее и сказуемое, определения, дополнения и обстоятельства разного вида. Но этой структуры для анализа оказывается мало.
Следующий шаг — построение глубинной синтаксической структуры (второй уровень). Идея существования глубинной синтаксической структуры связана с пониманием того, что различные естественные языки, отличаясь друг от друга многими внешними синтаксическими особенностями, передают весь спектр взаимосвязей между объектами, явлениями, их свойствами и протекающими с их участием процессами, характерными для окружающего мира. И этот мир един, каким бы языком мы его ни описывали. Следовательно, в каждом тексте существуют не зависящие от особенностей языка некие глубинные структуры, которые определяют адекватное отображение той или иной ситуации в окружающем мире. С этой идеей тесно связано использование так называемых глубинных падежей, или падежей Филмора[1], названных по имени американского исследователя, впервые введшего их в научный оборот. Рассмотрим как пример две фразы: «Мальчик сорвал цветок» и «Цветок, сорванный мальчиком'». В первом предложении субъект действия сорвал — это мальчик. И это слово играет здесь роль подлежащего, о чем свидетельствует именительный падеж. Во втором же предложении роль подлежащего играет слово цветок. Но субъектом действия сорвал и здесь остается все тот же мальчик. А цветок в любом из двух приведенных предложений играет роль объекта действия. Понимание ситуации, описываемой любым из этих предложений, заключается, в частности, в том, что мы выделяем в тексте некоторое действие, а также его субъект и объект. Позиции субъекта и объекта служат примером тех самых глубинных падежей, которые ввел Филмор. Эти два падежа (субъектный и объектный) не единственные. Разные исследователи выделяют разное количество таких падежей (инструментальный, временной, пространственный и т. д.), но их общее количество не превосходит полутора десятка.
Синтаксическая структура, построенная на основе глубинных падежей, позволяет перейти от синтаксического уровня предложения к его семантическому уровню (третий уровень). На этом уровне для анализа привлекаются дополнительные данные, связанные с наличием у лексических единиц языка (в частности, слов) определенных значений. В семантических структурах также можно выделить поверхностный и глубинный уровни, в чем-то похожие на соответствующие уровни в синтаксических структурах. Поверхностный семантический уровень тесно связан с глубинной синтаксической структурой, а глубинный семантический уровень как бы отрывается от нее, передавая смысл для целого класса однотипных ситуаций. Структуры наиболее глубокого уровня, возникающие при анализе предложений, могут быть названы прагматическими. Из них следует понимание того, к чему обязывает или призывает данное предложение. Прагматические структуры устанавливают связь между предложениями в текстах, связывают текст в единое целое, а также побуждают нас делать те или иные действия в реальном мире (как, например, надпись: «Стой! Проход запрещен!»'').
В процессе анализа текстов, содержащих более одного предложения, возникают новые структуры, обеспечивающие сцепление этих предложений в рамках некоторой описываемой ситуации или последовательности ситуаций. Возникают межфразовые связи, позволяющие понять текст как единое целое. Эти структуры пока изучены значительно хуже, чем структуры, лежащие в основе одного предложения. Необходимость в исполнении тех или иных этапов при анализе конкретного текста зависит от тех целей, для которых тот анализ осуществляется.
- [1] Чарльз Дж. Филмор - американский лингвист, в 1990 г. президент Американского лингвистического общества