Межъязыковой информационный поиск

Система межъязыкового информационного поиска (cross-language information retrieval, CLIR) позволяет пользователям вводить запросы на одном языке, а получать результаты на разных языках. Например, китаец, не говорящий по-английски, может ввести запрос на китайском и получить релевантные документы па английском, испанском или любом другом поддерживаемом языке. И хотя, на первый взгляд, эти документы бесполезны для человека, не говорящего на соответствующем языке, в большинство реальных CLIR-систем встроен тот или иной компонент перевода (машинного или ручного) для просмотра документов на родном языке пользователя.

В дополнение ко всем сложностям, присущим одноязычному поиску (см. главу 3), CLIR-система должна иметь дело с языковым барьером. Учитывая, как трудно большинству людей дается изучение нового языка, должно быть понятно, что хороший межъязыковой поиск - отнюдь не тривиальная задача.

CLIR-приложения традиционно строятся одним из двух способов: либо запрос переводится на целевой язык, а затем производится поиск документов на целевом языке, либо во время предобработки все документы в наборе переводятся с целевого языка на исходный.

Но при любом подходе качество системы зависит от ее умения выполнять перевод. Во всех системах, кроме совсем уж тривиальных, ручной перевод следует сразу исключить из рассмотрения, так что необходимо прибегнуть к той или иной форме автоматизированного перевода. Простейший программный подход - взять двуязычный словарь и произвести пословную подстановку, но тут сразу же возникают проблемы неоднозначности и семантики, поскольку в большинстве языков имеются идиомы, синонимы и другие конструкции, которые, мягко говоря, затрудняют дословный перевод.

Существует несколько инструментов - как коммерческих, так и с открытым исходным кодом - в которых более высокое качество машинного перевода обеспечивается применением статистических подходов на основе анализа параллельных или сравнимых корпусов, позволяющего автоматически обучаться идиомам, синонимам и другим конструкциям. (Параллельными называются корпусы, в которых каждому документу соответствует его перевод. Сравнимыми корпусами называются два набора документов на одну и ту же тему.) Самая известная система автоматизированного перевода - онлайновый переводчик Google, размещенный по адресу http://translate.google. com и показанный на рис. 9.5, но есть и другие, например, Systran (http://www.svstransoft.com/') и SDL Language Weaver (http://www. languageweaver.com/'). Из ПО с открытым исходным кодом назовем активно развивающийся проект Apertium (http://www.apertium.org/). который мы, правда, не оценивали. Проект Moses (http://www.statmt. org/moses/) - это статистическая система машинного перевода (МТ), которой для построения модели нужны только параллельные корпусы текстов. Наконец, Микель Форкада (Mikel Forcada) составил изрядный перечень бесплатных и открытых систем машинного перевода и разместил его по адресу httD://computing.dcu.ie/-mforcada/ fosmt.html.

Пример перевода предложения «Tokyo is located in Japan» с английского на японский с помощью Google Translate. Снимок сделан 30.12.2010

Рис. 9.5. Пример перевода предложения «Tokyo is located in Japan» с английского на японский с помощью Google Translate. Снимок сделан 30.12.2010

В некоторых случаях прямой перевод для данной пары языков не поддерживается, поэтому приходится переводить через общий промежуточный язык (если такой существует). Например, если существуют ресурсы для перевода с английского на французский и с французского на кантонский диалект китайского, но не напрямую с английского на кантонский, то для перевода нужно будет использовать французский как промежуточный язык. Разумеется, качество перевода пострадает, но это все же лучше, чем ничего.

Даже при наличии хорошего движка перевода (а большинство из них дают возможность получить общее представление о смысле текста) часто порождается несколько результатов для одного запроса, поэтому у CLIR-системы должны быть средства, чтобы определить, когда нужно переводить, а когда нет. Кроме того, во многих языках необходима транслитерация имен собственных (представление одного алфавита символами другого). Например, в арабо-английской CLIR-системе, над которой работал Грант, транслитерация английских имен на арабский и наоборот нередко была возможна многими, иногда сотнями, способов, и надо было, исходя из статистической вероятности появления результата в корпусе, решить, какие варианты включать в качестве поисковых термов.

Примечание. Если вы недоумевали, почему имя бывшего ливийского лидера Муамара Каддафи по-английски пишется то Gaddafi, то Khadafi, а то Qaddafi, так это из-за неоднозначности транслитерации, поскольку не существует единственно правильного способа сопоставления алфавитов.

Во многих случаях система перевода возвращает оценку доверия, но иногда приложение вынуждено полагаться на обратную связь с пользователями или анализ журналов. Наконец, и это очень печально, нередко бывает так, что поисковая часть CLIR-системы реализована замечательно, но пользователь судит о ней по качеству автоматизированного перевода результатов, которое почти всегда оставляет желать лучшего, даже если смысл документа удается разобрать - немного поднаторев в этом.

Для дальнейшего изучения межъязыкового информационного поиска можно начать с книги Grossman, Frieder «Information Retrieval» (Grossman [2004]) и с сайта Дуга Оурда (Doug Oard) по адресу http:// terpconnect.umd.edu/-oard/research.html. Есть также несколько конференций и конкурсов (аналогичных TREC), посвященных CLIR, в том числе CLEF (Cross-Language Evaluation Forum) (http://www.clef- camnaign.orgI и NTCIR (http://research.nii.ac.ip/ntcir/index-en.htmlL

 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ ОРИГИНАЛ   След >