Перспективы развития информегрии

Па основе идей законов Ципфа Мандельброта и Брэдфорда-Викери, ?закономерности концен фации-рассеяния, сформулированной В.И. Горьковой, развиваются методики автоматизации индексирования и анализа текстов, введения весовых коэффициентов терминов (см. ссылки в http://www.medialingvo.ru).

Вводятся меры веса ключевых слов.

Так, в работах Спарка Джонса экспериментально показано, что если N число документов и п число документов, в которых встречается данный индексный термин (ключевое слово), то вычисление его веса по формуле:

приводит к более эффективным результатам поиска, чем без использования оценки значимости индексного термина, т.е. определенное значение имеет не только частота применения слова в конкретном документе, но и число документов, в которых это слово встречается.

Вводятся логарифмические меры.

Например, чтобы избавиться от лишних слов и в тоже время поднять рейтинг значимых слов, вводят инверсную частоту термина

где N - количество документов в базе данных; /?, - количество документов с термином /.

А затем каждому термину присваивают весовой коэффициент, отражающий его значимость в форме:

где j - вес термина /' в документе; /д - частота термина / в документе; ix - инверсная частота термина.

В новом смысле используется термин «ядро».

В 1995 г. на симпозиуме в Дублине предложена интересная и полезная для совершенствования информационного поиска идея «Дублинского ядра» (Dublin Core) , основанная на формировании метаданных, зафиксированных в спецификации определенного стандарта, и представлении k-то документа множеством пар Dk = {Nik, Vik}, где Njk ' - имя /-го элемента метаданных Дублинского ядра в описании содержания к-го документа; Vik -значение этого элемента метаданных. Аналогично описывается запрос.

Перспективным представляется использование для формирования «Дублинского ядра» закономернос ти концен г рации-рассеяния. [1]

Возрастает интерес и к способам оценки текстов. Например, к работам Г. Луни ', в которых предложения текста оцениваются в соответствии с параметром:

где Vnp - значимость предложения; Nx - число значимых слов в предложении; a Nc полное число слов в предложении.

Используя этот критерий, из любого документа можно отобрать некоторое число предложений. Понятно, что они не будут составлять членораздельного текста. Нужно учитывать также, wo значимые слова должны браться из тематического тезауруса или отбираться экспертом. По той причине методика может лишь помочь человеку, а не заменить его (во всяком случае, на современном этапе развития вычислительной техники).

Закономерности организации ДИП, введения количественных мер терминов, предложений и др. компонентов текста полезно использовать на всех этапах создания информационно-поисковых систем: при комплектовании информационных фондов, создании информационно- поисковых языков и логико-семантического аппарата ИПС, при организации справочно-информационного обслуживания в библииотсках и отделах научно-технической информации, при создании и совершенствовании классификационных систем, выявлении тенденций роста и старения ДИП, при аналитико-синтетической обработке текстовой информации.

В последнее время на основе идеи закономерности концентрации- рассеяния разрабатываются методы выявления информационною ядра предметной области при построении информационной системы для реорганизации бизнес-процессов, при создании виртуальных предприятий. [2]

  • [1] Когаповский М.Р. Перспективные технологии информационных систем /М.Р. Когаловский. - М.: ДМК Пресс; М.: Компания АйТи, 2003. - 288 с.
  • [2] Lulin Н.Р. Automatic creation of literature abstracts BM // Journal of Researchand Development, 2, 1958, p. 159-165.
 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ ОРИГИНАЛ   След >