Понятие об информационно-поисковом языке

Применение естественного языка для отображения ПОД и ПОЗ связано со значительными трудностями, обусловленными наличием в языке синонимов, омонимов и т.и. неоднозначностей использования терминов естественного языка. Поэтому на определенном этапе развития теории и практики создания ИПС вместо естественного языка стали применять искусственные информационно-поисковые языки - ИПЯ.

Существуют различные названия и определения специализированного языка, с помощью которою отражаю! основное содержание документов, вводимых в ИПС.

Информационно-поисковый язык (retrieval language) - «это специализированный искусственный язык, предназначенный для выражения основного содержания документов или информационных запросов с целью отыскания документов в некотором их множестве» [8, с. 259].

Информационно-поисковый язык (ИПЯ) используется для отображения содержания документов информационно-поисковой системы в поисковом образе документа - ПОД, и запроса - поисковом образе запроса - ПОЗ, или поисковом предписании.

Такой язык называли вначале информационным языком (ИЯ), предъявляя к нему требование однозначной записи содержания документа; языком индексирования (index language), определяемым как совокупность или система символов или индексных терминов и правил их использования для выражения предметного содержания документов; документальным языком (language documentaire) и т.и. (подробнее с обзором этих терминов можно познакомиться в [8])..

В окончательном варианте понятийного аппарата теории информационного поиска утвердился термин информационно-поисковый язык (retrieval language).

Обобщая различные представления об информационно-поисковом языке, можно дать следующее определение:

Информационно-поисковый язык (ИПЯ) является формализованной семантической системой, обеспечивающей передачу (запись) содержания документа в объеме, необходимом для целей поиска.

Документ, записанный на этом языке, может быть в принципе и не понят человеком, даже если в записи используются слова естественного языка, поскольку в ИПЯ употребление слов, выражений, отношений между ними стандартизировано определенным образом.

Задачей ИПЯ является перевод содержания документа в поисковое предписание или поисковый образ документа (при вводе документа в ИПС) и перевод содержания запроса пользователя в поисковый образ запроса (поисковое предписание).

Первые исследователи в качестве составляющих ИПЯ выделяли: алфавит (набор буквенных и цифровых символов); слова, формируемые из алфавита с помощью морфологических правил - морфологии; словарь перевода (в котором каждому слову или осмысленной конструкции естественного языка сопоставлено слово или словосочетание ИПЯ); правила, отражающие взаимоотношения между словами документа, которые в конкретных ИПЯ реализуются, например, с помощью текстуальных или контекстуальных отношений, или с помощью специальных правил грамматики - синтаксис.

Словарь может состоять из ключевых слов (словосочетаний) или дескрипторов. Вначале некоторые авторы (например, Ч. Мидоу [29] отождествляли эти понятия и понимали иод дескриптором все слова, выбранные для включения в словарь.

Однако в дальнейшем термину дескриптор стали придавать более сложный смысл: в отличие от ключевых слов, выбираемых предварительно из документов массива, для поиска в котором разрабатывается ИПЯ, под дескриптором понимается некоторый (выбранный разработчиком ИПЯ), обобщающий термин для отображения группы синонимов или слов, которые для целей поиска в конкретной ИПС можно считать синонимами.

Такие слова объединяют в класс условной эквивалентности, обобщаемый соответствующим дескриптором, и если в тексте документа или запроса встречается слово из данного класса, то его заменяют в ПОД или ПОЗ дескриптором.

Дескриптор - понятие, введенное и используемое в теории информационного поиска [8, 29, 44].

В современных информационно-поисковых языках под дескриптором понимают имя класса условной эквивалентности [8, 44].

Класс условной эквивалентности формируется из ключевых слов, связанных парадигматическими отношениями, г.е. отношениями тина синонимии, «род - вид», «часть - целое», отношениями, основанными на одинаковости основы слов при различных окончаниях (парадигмы склонения и спряжения) и т.д.

Парадигматические (базисные) отношения - один из видов семантических отношений, предложенных в теории информационного поиска и применяемых при разработке информационно-поисковых языков.

Парадигматические отношения представляют собой внетекстовые смысловые отношения между лексическими единицами ИПЯ, которые устанавливаю тся на основании потребностей информационного поиска

Роль парадигматических отношений сводится к следующему. Принципиальной особенностью естественного языка является тот факт, что в нем одни и те же события могут быть описаны в разных терминах. Тогда в поисковом образе документа - ПОД, и поисковом образе запроса — ПОЗ, могут быть использованы разные слова с сохранением смысла документа и запроса.

Кроме того, на практике может оказаться необходимым отыскивать документы, в которых речь идет о более частных понятиях, чем в ПОЗ. Не потерять такие документы может помочь введение парадигматических (базисных) взаимоотношений между дескрипторами ИПЯ.

В широком смысле в состав парадиг матических отношений включают отношения синонимии (тождество означаемых при различии означающих), омонимии (тождество означающих при различии означаемых), отношения, основанные на одинаковости основы при различных окончаниях (парадигмы склонения и спряжения).

Однако в более узком смысле при разработке ИПЯ иногда предлагается под парадигматическими (базисными) отношениями понимать «лишь такие отношения между словами (означающими), которые основаны на существовании тех или иных связей между означаемыми» [8, с. 433].

Разные специалисты предлагают различные способы определения парадигматических связей: по сходству предметов, по принадлежности к одному классу, ассоциативные отношения (ассоциации но смежности в пространстве и во времени, но сходству, по контрасту, отношения соподчинения, «.вид-род», «причина-следствие», «часть-целое» и т. п.).

При этом допускается произвольное установление отношений в конкретном ИПЯ, с ориентацией на повышение эффективности информационного поиска.

В частности, Э.С.Бернштейн, Д.Г.Лахути и К.С. Чернявский [1] используют при разработке ИПС «Пусто-Непусто» парадигматические отношения, которые определяют как отношения, существующие между словами поискового языка независимо от контекста, называя именно их базисными отношениями (БО), и задают их списком (включая в тезаурус). БО увеличивают семантическую силу системы, позволяют формулировать запросы в терминах, отличных от терминов, употребляемых в релевантных документах.

Фиксированные БО могут быть заданы различными способами: с помощью структуры слов (как в УДК), с помощью системы ссылок, с помощью деревьев дескрипт оров и т. п.

Следует иметь в виду, что, стремясь улучшить результаты поиска, можно увеличить «шум», т. е. избыточную выдачу.

В первых работах по теории информационного поиска термин дескриптор использовался иногда [8] как синоним понятия ключевое слово

В различных языках эти компоненты ИПЯ используются по- разному. Словарь может иметь достаточно сложную структуру, т. е. представлять собой тезаурус, который может включать в себя и алфавит, и слова, и словосочетания, и более сложные конструкции.

Термин тезаурус (от феч. «ОрЙаоро^», «thesauros» - сокровищница, богатство, клад, запас и т. и.) в общем случае характеризует «совокупность научных знаний о явлениях и законах внешнего мира и духовной деятельности людей, накопленную всем человеческим обществом» [8, с. 85]. Этот термин был введен в современную литературу но языкознанию и информатике в 1956 году Кембриджской группой но изучению языков. В то же время термин существовал раньше: в эпоху Возрождения тезаурусами называли энциклопедии. С обзором определений тезауруса и первых тезаурусов можно познакомиться в [8, с. 415-432,469-505].

Особую роль в формировании тезауруса играют базисные (парадигматические) отношения, которые исторически являются элементом логики ИПС.

В математической лингвистике и семиотике термин тезаурус используется в более узком смысле, для характеристики конкрет ного языка, его многоуровневой структуры.

Для этих целей удобно пользоваться одним из принятых в лингвистике определений тезауруса как «множества смысловыражающих элементов языка с заданными смысловыми отношениями» .

Это определение позволяет представить структуру языка в виде уровней (страт) множеств (например, слов, словосочетаний, предложений, абзацев и т. п.), смысловыражающие элементы каждого из которых формируются из смысловыражающих элементов предшествующих структурных уровней.

Правила формирования смысловыражающих элементов второго и третьего уровней в тезаурус не входят, в тезаурусе определяется только вид и наименование уровня, характер и вид смысловыражающих элементов.

Иногда вместо термина смысловыражающие элементы используется термин синтаксические единицы тезауруса. На наш взгляд, это менее удачный термин, так как при формировании элементов нового множества смысловыражающих элементов каждого последующего уровня (при образовании слов из букв, фраз и предложений из слов) у элементов вновь образованного множества появляется новый смысл, т. е. как бы проявляется закономерность целостности, и это хорошо отражает термин «смысловыражающий элемент».

Понятие тезауруса стало в первую очередь использоваться при разработке информационно-поисковых языков, но в последующем его стали применять и при создании других искусственных языков - языков моделирования, автоматизации проектирования.

Тезаурус позволяет охарактеризовать язык с точки зрения уровней обобщения, ввести правила их использования при индексировании информации. В теории научно-технической информации исследуются различные свойства тезауруса

Можно говорить о глубине тезауруса того или иного языка, характеризуемой числом уровней, о видах уровней обобщения, и, пользуясь этими понятиями, сравнивать языки, выбирать более подходящий для рассматриваемой задачи или, охарактеризовав структуру языка, организовать процесс его разработки.

В практике создания информационно-поисковых систем наиболее известен словарь-тезаурус «Тезаурус ASTIA» 2.

В системе SMART ' содержится два вида тезаурусов: [2]

Тезаурус с иерархической структурой понятий.

Дает возможность для любого номера понятия найти их «родителя», «сыновей», «братьев» и множество возможных перекрестных ссылок.

Словарь синонимов или тезаурус.

Используется для замены значащих слов номерами понятий, каждое из которых представляет класс основ слов, близких по смыслу.

Тезаурусы разрабатываются и в отечественных отраслевых системах научно-технической информации (например, в АСНТИ-геология '.

Простейшими тезаурусами являются словари дескрипторов при толковании дескриптора как имени класса условной эквивалентности, формируемого на основе парадигматических отношений.

Термин тезаурус иногда используется в более широком смысле. Например, Ю.И. Шемакчн тезаурусом называет сложную систему организации в автоматизированных системах управления и обработки информации разных ее видов (научно-технической, управленческой, представляемой в документальной и фактографической форме) [46].

Морфологию и синтаксис удобно объединять единым термином - грамматика. Тогда говорят, что ИПЯ состоит из тезауруса и грамматики, а затем рассматривают смысловыражающие элементы (синтаксические единицы) тезауруса и правила грамматики.

Под грамматикой (которую иногда называют синтактикой, синтаксисом, что сужает понятие грамматики, исключая из него морфологию) понимаются правила, с помощью которых формируются смысловыражающие элементы языка. Пользуясь этими правилами, можно «порождать» (формировать) грамматически (синтаксически) правильные конструкции или распознавать их грамматическую правильность.

Простейшими правилами фамматики являются синтагматические (текстуальные) отношения, которые подробнее будут рассмогрены ниже.

При создании и использовании искусственных языков для информационно-логических систем применяют такие понятия сгруктур- ной лингвистики, как порождающая и распознающая грамматика.

Под порождающей грамматикой понимается совокупность правил, с помощью которых обеспечивается возможность формирования (порождения) из первичных элементов (словаря) синтаксически правильных конструкций. [3]

Под распознающей грамматикой - правила, с помощью которых обеспечивается возможность распознавания синтаксической правильности предложений, фраз или других фрагментов языка

При создании ИПЯ с тезаурусом и грамматикой важную роль играют понятия семантики и прагматики.

Под семантикой понимается содержание, значение, с м ы с л формируемых или распознаваемых конструкций языка; под прагматикой - полезность для данной цели, за д а ч и.

Пользуясь этими правилами, можно лучше отразить смысл документа или запроса в ПОД и ПОЗ, повышая релевантность поиска.

  • [1] Бернштейн Э. Вопросы теории поисковых систем / Э. Бернштейн, Д. Лаху-ти, В. Чернявский. - М.: ВНИИЭМ, 1966. - 64 с.
  • [2] Шрейдер Ю.А. Информация в структурах с отношениями // Сб.: Исследования по математической лингвистике, математической логике и информационным языкам. - М.: Наука, 1972. - С. 147-159. : Vikery К. С. Thesaurus of ASTIA Descriptors, 2nd Ed.//Armed Forces TechnicalInformation Agency. - Arlington, Verginia: Dec. 1962. Сэлтон Г. Автоматическая обработка, хранение и поиск информации / Г.Сэлтон. -М.: Сов. радио, 1973. - 560 с.
  • [3] Автоматизированная система научно-технической информатики - разработка и эксплуатация / К.И. Володин, Л.Л. Гульницкий, И.Ф. Пожариский идр. - М.: Финансы и статистика, 2004. - 192 с.
 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ ОРИГИНАЛ   След >