Понятие о документальном информационном поиске

Теория информационного поиска первоначально сформировалась при исследовании документальных информационно-поисковых систем (ДИПС) научно-технической информации.

Под информационным поиском в таких системах понимается некоторая последовательность операций, выполняемых с целью отыскания документов (статей, научно-технических отчетов, описаний к авторским свидетельствам и патентам, книг и т.д.), содержащих определенную информацию (с последующей выдачей самих документов или их копий), или с целью выдачи фактических данных, представляющих собой ответы на заданные вопросы [8, с. 248].

Массив элементов информации, в котором производится информационный поиск, был условно назван поисковым массивом [8].

Теория информационного поиска документальной информации разрабатывалась для научно-технической информации, носители которой принято делит ь на два больших класса:

  • Первичные - книги, статьи, отчеты и другие результаты научных исследований и опытно-конструкторских разработок
  • вторичные - результаты аналитико-синтетической переработки первичной информации, обзорные, реферативные и т.н.

Существуют различные виды информационного обслуживания. Основными можно считать следующие:

  • регламентное обслуживание в форме подготовки и издания обзорных и реферативных информаций, библиографических указателей и т.п., или обслуживание но стандартным запросам;
  • • оповещение отдельных специалистов (абонентов) о текущих публикациях, представляющих для них потенциальный интерес путем избирательного (адресного) распределения информации (ПРИ) по «профилям интересов», сформулированных потребителями, или дифференцированного обслуживания руководителей (ДОР) но мере поступления информации, необходимой для принятия управленческих решений;
  • ретроспективный поиск, г.е. отыскание документов, в которых находятся сведения но конкретным запросам, в массиве всех накопленных источников информации, что может осуществляться либо в форме подготовки тематических подборок, либо в оперативном режиме.

Способы реализации видов и форм обслуживания зависят от вида, назначения и способа реализации конкретной ИПС. В современных условиях распространены режимы обслуживания в форме онлайнового доступа к базам данных автоматизированных ИПС и предоставления информации на CD-ROM.

Для эффективного информационного обслуживания необходимо выявлять информационные потребности. Поэтому изучение запросов потребителей информации является первоочередной задачей научно-информационной деятельности. Задача эта является весьма сложной, поскольку потребители, как правило, не умеют четко сформулировать свои потребности, и они угоняются по мере работы с получаемой информацией.

Перспективным представляется определение запросов потребителей на основе структуризации целей и функций деятельности руководителей (при обслуживании в режиме ДОР) или специалистов (обслуживаемых в режиме ПРИ).

Процесс поиска документов может быть формализованно описан в терминах теории множеств следующим образом: D - некоторое множество документов или библиотека (поисковый массив); Q - множество информационных запросов; R - отношение, свойство, при наличии которою любому q е О ставится в соответствие подмножество D ’ a Д называемое ответом на информационный запрос.

Очевидно, что прочитать каждый документ информационной базы, чтобы найти необходимый, практически невозможно. Поэтому на протяжении истории развития информационного поиска разрабатывались и совершенствовались различные методы поиска.

Каждому документу, вводимому в поисковый массив, ставится в соответствие поисковый образ документа (ПОД), который представляет собой характеристику, отражающую основное смысловое содержание документа (этим ПОД отличается от кода, присваиваемого информационному элементу в фактографических информационных системах). В виде такой же краткой характеристики - поискового предписания или поискового образа запроса (ПОЗ) должен быть сформулирован и информационный запрос. Благодаря этому процедура поиска может быть сведена к простому сопоставлению поисковых образов документов с поисковым предписанием.

Однако такое сопоставление допустимо лишь в случае, если ПОД и ПОЗ описаны в терминах единого языка.

Для реализации процедуры описания и документов и запросов с помощью ПОД и ПОЗ разрабатывают информационно-поисковые языки (ИПЯ), которые имеют различные возможности.

Простейшим ПОД может являться заглавие документа, переписанное в форме перечня входящих в него слов. При этом необходимо установить некоторые правила типа включения в ПОД существительных в единственном числе и именительном падеже, глаголов - в неопределенной форме или в виде отглагольных существительных и т.п. правил, общих для формирования ПОД и ПОЗ.

В более развитых вариантах для уточнения содержания документа можно в качестве ПОД использовать аннотацию или реферат документа, также переписанные в виде перечня входящих в них слов с учетом некоторых правил, общих для формирования ПОД и ПОЗ.

В практических условиях реализации ИПС число слов, включаемых в ПОД и ПОЗ, не должно быть слишком большим, поэтому вводится понятие ключевые слова, которые являются наиболее значимыми для отображения содержания документа.

Некоторые идеологи информационного поиска (например, Ч. Мидоу [29]) отождествляли понятия ключевое слово и дескриптор. Однако в дальнейшем эти понятия стали использоваться в разном смысле.

Для отображения ПОД и ПОЗ разрабатываются информационнопоисковые языки (ИПЯ).

Для сопоставления ПОД и ПОЗ применяют различные критерии поиска или критерии смыслового соответствия (КСС).

Точность поиска определяется точностью отображения документов и запросов с помощью их поисковых образов и степенью совпадения ПОД и ПОЗ. Поэтому возможна неполнота выдачи документов, либо, напротив, «поисковый шум», которые представляют собой своеобразную плату за облегчение процедуры информационного поиска.

Для оценки качества поиска вводят специальные критерии. Обобщенные критерии качества поиска - релевантность и пертинент- ность [8, с. 282-287].

Под релевантностью понимается соответствие выдачи запросу, т.е. релевантность характеризует качество алгоритма поиска.

Под пертинентностью понимается соответствие выдачи потребностям лица (или лиц), для которого (которых) осуществляется поиск информации, г.е. иертинентность характеризует смысловыражающие возможности ИПЯ, точность отображения с его помощью информационных потребностей.

Предлагаются и используются различные конкретные критерии количественной оценки релевантности и пертинентности.

Разработка комплекса критериев оценки качества информационного поиска - достаточно сложная проблема: состав и количественные характеристики критериев зависят от конкретного назначения и принципов реализации ИПС.

Информационный поиск осуществляется с помощью информационно-поисковой системы, понятие о которой развивалось. Кратко рассмотрим представления об ИПС и ее структуре.

Понятие об информационно-поисковой системе.

Структура ИПС

Структура и функционирование конкретной ИПС зависят от вида и состава информационных источников, от способов реализации информационного поиска. В то же время есть некоторые общие принципы построения и функционирования ИПС, которые кратко рассматриваются в данной главе.

Анализ определений ИПС. Под информационно-поисковой системой первоначально понималась некоторая совокупность или комплекс связанных друг с другом отдельных частей, предназначенных для выявления в каком-либо множестве элементов информации (документов, сведений и т.д.), которые отвечают на информационный запрос, предъявляемый к системе [8].

С учетом приведенного выше описания процесса информационного поиска ИПС (IPS) можно определить следующим образом:

где D - некоторое множество документов или библиотека (поисковый массив); О - множество информационных запросов; D’ - ответ на информационный запрос; R - множество отношений, свойств, при наличии которых любому запросу q, е Q ставится в соответствие подмножество D

Более полно А.И.Черный предложил представить ИПС в виде совокупности четырех основных компонентов [15, с. 18]:

где LS - логико-семантический аппарат (включающий, информационнопоисковые языки - один или более, правила индексирования и критерии выдачи); D - поисковый массив (т.е. определенное множество снабженных поисковыми образами документов, в котором отыскиваются необходимые); TS - технические средства (т.е. какие-то приспособления или устройства, которые необходимы для записи и хранения поисковых образов, для хранения документов и осуществления процесса сопоставления поисковых образов документов с поисковым предписанием или поисковым образом запроса); N - люди, взаимодействующие с системой (т.е. те, кто пользуются данной ИПС и обслуживают ее - осуществляют индексирование документов и информационных запросов, выбирают стратегию поиска, а также выполняют другие интеллектуальные операции, без которых невозможен информационный поиск).

Затем для обеспечения возможности автоматизации процедуры информационного поиска было предложено [8, 44] в ИПС выделить два уровня рассмотрения - абстрактный и конкретный.

Абстрактной ИПС была названа совокупность ИПЯ (retrieval language - RL), правил индексирования (IND) и критерия выдачи или критерия смыслового соответствия (KSS):

Конкретной ИПС названа практически реализованная система, включающая массив документов ?>, в котором производится информационный поиск, технические средства TS реализации ИПС, а также взаимодействующих с ней людей N.

Схема функционирования ИПС в таком понимании приведена на рис. 5.6.

В дальнейшем в соответствии с рассмотренным выделением в ИПС абстрактного и конкретного уровней и с учетом особенностей хранения документальной информации (библиотеки, архивы и т.и. хранилища) процедуру информационного поиска документальной информации было предложено разделить на два контура [44]:

  • 1) семантическое осмысление запроса и выдача адресов (шифров, кодов), соответствующих запросу документов; на рис. 5.6 этот контур показан сплошными линиями;
  • 2) отыскание самих документов (вручную или с помощью специализированных технических средств, если ими оборудовано хранилище); на рис. 5.6 - штриховые линии.
Схема функционирования ИПС

Рис. 5.6. Схема функционирования ИПС

Второй контур связан с разработкой специализированных технических средств хранения больших массивов документов и работой по переоборудованию хранилищ, а собственно проблемы информационного поиска решаются в первом контуре.

С учетом вышерассмотренного первый контур ИПС состоит из грех основных блоков (рис. 5.7):

информационно-поискового языка, системы перевода (индексирования) на этот язык и логики, обеспечивающей поиск, которые, в свою очередь, могут быть детализированы и реализованы разными способами.

Структура ИПС

Рис. 5.7. Структура ИПС

Представление ИПС в виде двух контуров является в настоящее время наиболее распространенным.

В некоторых системах контуры могут быть совмещены.

Напротив, иногда возникает необходимость выделять не два, а большее число контуров, что помогает организовать последовательно углубленный анализ текстов документов. Такие варианты реализуются, например, в документально-фактографических системах нормативно-правовых и нормативно-методических документов.

В символической форме, принятой выше, абстрактная ИПС (1-г/ контур) представляет собой совокупность ИПЯ (RL), правил (системы) индексирования (IND) и логики (LOG), включающей наряду с критериями смыслового соответствия, базисные отношения:

В теории и практике различают ИПС разных видов.

Документальные ИПС (ДИПС) в ответ на вводимые в них информационные запросы выдают оригиналы, копии или адреса хранения документов, содержащих требуемую информацию.

ПО

Фактографические ИПС (ФИПС) предназначены для выдачи непосредственно требуемой информации (например, температуры кипения какой-либо жидкости, статистических показателей, содержащихся в соответствующих отчетных документах и т.п.).

При этом существуют фактографические системы двух видов:

  • 1) системы, в которых сразу формируются массивы фактографической информации;
  • 2) системы, в которых массивы фактографической информации формируются на основе массивов документальной информации.

Информационные системы второго вида могут, в свою очередь, формироваться как документально-фактографические (ДФИПС и АДФИПС), содержащие массивы двух видов:

  • * документальные и сопряженные с ними массивы фактографической информации
  • * информационно-логические ИПС.

В отличие от документальных, фактографических и документальнофактографических ИПС 1-го вида, которые могут по запросам выдавать только такую информацию, которая была ранее в них введена, информационнологические системы представляют собой информационные системы более высокого класса: они должны выдавать не только ранее введенную в них информацию, но и производить, если необходимо, логическую переработку этой информации с целью получения новой информации, которая в явном виде не вводилась в ИС.

Информационно-логическую систему (ИЛС или ILS) можно определить как совокупность ИПЯ (RL), правил перевода с естественного языка на информационный, т.е. правил индексирования (IND) и правил логического вывода (LV), которая предназначена для алгоритмического получения новой информации (/„) [8, 44]:

Развивая представления об информационных системах, способных получать новую информацию, Ю.И. Шемакин предлагает понятие информационно-семантической системы [48, с. 60]:

где а - цель; St - структура; tpiss е ТР - подмножество технологических процессов для данной JSS; со -условия; //-время.

Входящие в определение (5.6) составляющие могут быть детализированы с учетом конкретной реализации ИПС. Особенно важно уточнять состав технологических процессов:

где met - методы; re - средства; SemSI - семантическая переработка семантической информации.

Для организации проектирования информационных систем Ю.Ф. Тельное [39] предлагает определение, в котором учитываются и цели Q, и элементы (внешние ?„ и внутренние Е), и отношения R (включая динамические взаимодействия), и функции F (процессы, операции), и период времени Т, и закономерности Z, определяющие структуру системы и ее взаимодействие с внешней средой:

Выбор определения ИПС зависит от конкретного объекта, для которого она разрабатывается, назначения и условий разработки и функционирования информационной системы.

 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ ОРИГИНАЛ   След >