Развитие технологий сети глобальной сети Интернет

Время до появления «Всемирной паутины» можно охарактеризовать как период накопления информационных ресурсов, а период его становления и развития характеризуется активным их ростом. «Интернет ... представляет собой множество распределенных по всей планете электронных ресурсов и обеспечивает доступ к ним» [4]. Распределенность информационных ресурсом и отсутствие механизмов их организации обуславливают появление проектов, направленных на их систематизацию. Активно развиваются службы вторичной информации и агрегаторы, которые вместе с сервисом поисковых машин создают современный облик Интернета как среды для обеспечения доступа к информации. На данном этапе развития происходит переориентация систем доступа к ресурсам, размещенным в сети Интернет, в сторону улучшения качественного состава ресурсов и предоставляемых услуг.

Первая в мире поисковая машина Dialog была созданная в США в 1972 г. Она является мировым лидером по поставке электронной информации на коммерческой основе. Dialog ориентирована на предоставление информации от наиболее авторитетных издателей в таких областях как бизнес, наука, машиностроение, финансы, право, патенты, торговые знаки, химия, фармацевтика, биотехнология, управление, новости. [4].

В 1998 году была основана одна из наиболее продвинутых современных поисковых машин - Google. Миссия компании-разработчика - «сделать мир информации более организованным, доступным и полезным для всех», для выполнения которой в настоящее время компанией предлагается большой набор инструментов для работы с информационными ресурсами, представленными в электронной форме.

Harvest (OAI) - исследовательский проект по распределенному поиску, осуществляемый в университете Колорадо. Базовая концепция состояла в разделении основных функций центральной поисковой системы на несколько отдельных подсистем. Проект определил форматы и протоколы для коммуникации между этими подсистемами. Центральной в архитектуре Harvest является концепция «сборщика» -программы, которая собирает индексную информацию из коллекций электронной библиотеки. Каждый сборщик извлекает индексы из коллекций и передает в стандартном формате по стандартному протоколу программам, называемым «брокерами». Последняя строит сводные индексы информации из разных коллекций. Архитектура Harvest значительно более эффективна в сетях, чем традиционные методы индексирования, которыми пользуются поисковые роботы. При этом разработчики для повышения эффективности ввели кэширование и методы репликации; однако, реальные преимущества - это лучший поиск и обнаружение информации.

Все сборщики передают информацию с использованием определенного протокола (Summary Object Interchange Format, SOIF), но саму информацию они могут собирать по внутренним правилам отдельных коллекций. Если поисковые роботы могут обрабатывать только открытую информацию, сборщики могут получать привилегии доступа и индексировать закрытые коллекции. Они могут быть сконфигурированы под определенные базы данных и не ограничены только Web-страницами или конкретными форматами. Они могут включать словари или словники по отдельным дисциплинам, что в итоге это дает большие преимущества [8, 27].

Технологии доступа к данным, основанные на Web, обладают многими достоинствами. Однако за годы эксплуатации по мере роста количества ресурсов в полной мере проявились свойства Web, сдерживающие его дальнейшее развитие. Прежде всего, это слабые стороны языка гипертекстовой разметки HTML, которые заключаются в следующем:

  • • для HTML-страниц не поддерживаются метаданные, которые бы описывали их структурные, семантические и другие свойства. Исключением являются введенные в HTML тэги МЕТА и LINK, позволяющие ассоциировать с ними ключевые слова или рубрики. Эти простейшие средства могут использоваться для описания семантики HTML-страниц;
  • • язык HTML ориентирован не на разметку контента страниц, а на форматную разметку, служащую для определения способа их представления на экране клиентского компьютера;
  • • информационные ресурсы HTML могут идентифицироваться только по их местоположению в распределенной среде Web (с помощью URL);
  • • к HTML-страницам или их фрагментам возможен только навигационный доступ по гиперссылкам. Не обеспечивается доступ по свойствам содержимого страниц или их структурных компонентов;
  • • за время существования Web сформировался огромный объем информационных ресурсов, явным образом не представленных в Web, но доступ к которым осуществляется через среду Web. По имеющимся оценкам их объем составляет около 70% всех ресурсов, доступных в среде Web. Пользователи Web обладают весьма ограниченными средствами доступа к таким ресурсам.

HTML является закрытым языком, не позволяющим пользователю вводить при необходимости новые собственные тэги для расширения функциональности языка.

Отсутствие поддержки метаданных не позволяет верифицировать целостность структуры и содержания HTML-страниц. По этой же причине невозможно осуществлять эффективный целенаправленный поиск необходимой пользователю информации в огромном накопленном объеме информационных ресурсов Web. Поисковые машины Web реализуют, главным образом, только технику контекстного поиска. Поиск документов с учетом свойств структурных компонентов их содержания невозможен. Результаты обработки пользовательских запросов поисковыми машинами Web характеризуются высоким уровнем информационного шума. Без поддержки метаданных невозможна эффективная интеграция информационных ресурсов, поддерживаемых не только в этой, но и в других взаимодействующих с ней средах. Следствием закрытости языка HTML являются ограниченные возможности 21

структурирования документов и необходимость периодического пересмотра версий стандарта HTML для расширения его функциональности путем добавления новых средств разметки -тэгов. Идентификация информационных ресурсов по местоположению в Web также представляет собой ограничивающий фактор и доставляет значительные неудобства, например, при необходимости перемещения HTML-страниц в другие места хранения.

В последние годы консорциум W3C вел активную деятельность, направленную на радикальный пересмотр основополагающих принципов и формирование новой технологии Web. При этом затрагивались все три базовых элемента первоначального проекта WWW, на которых была построена его действующая реализация: язык гипертекстовой разметки HTML, основанный на концепции универсального локатора ресурсов URL, принцип идентификации информационных ресурсов по месту их хранения в сети, а также протокол передачи гипертекстовых ресурсов HTTP. Базовые концепции новой технологии Web были определены W3C в середине 90-х годов, а её практическое воплощение началось с принятия в 1998 году нового стандарта - расширяемого языка разметки Extensible Markup Language (XML). В настоящее время правомерно говорить о переходе на новую функционально развитую технологическую платформу Web второго поколения, называемую платформой XML. Под платформой понимается совокупность стандартов, взаимосвязанных и имеющих единое функциональное назначение. Платформа XML обладает следующими общими свойствами:

  • • является новой технологической платформой Web второго поколения (Second Generation, 2GW), основой ее дальнейшего развития;
  • • взамен языка HTML предоставляется модульная система функционально специализированных взаимосвязанных совместимых языков представления информационных ресурсов;
  • • все стандарты платформы имеют единую концептуальную и синтаксическую основу, определяемую набором стандартов XML;
  • • язык XML и набор стандартов платформы расширяемы;
  • • предусмотрено многоуровневое представление информационных ресурсов - «физическое», «логическое» и «семантическое»;
  • • имеется возможность представления как слабоструктурированных данных, не имеющих описывающей их схемы, так и структурированных данных;
  • • предусмотрены уточненные возможности идентификации информационных ресурсов;
  • • обеспечивается многоуровневое представление метаданных - от вербального до формального уровней;
  • • обеспечивается преемственность технологий.
 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ ОРИГИНАЛ   След >