Технология поиска информации в Интернете

Поиск информации или информационный поиск представляет один из основных информационных процессов. Человечество издревле занималось им, чему свидетельством являются, например, наскальные рисунки. Цели, возможности и характер поиска всегда зависели от наличия, информации, ее важности и доступности, а также средств его организации. Совокупность названных факторов обуславливает постановку большинства задач общества, его отдельных труни и личностей в любой период их существования, ибо в социуме передатчиками и приемниками любых сведений являются индивидуумы. В данном процессе они могут представлять собственные интересы, а также по требности социальной микро- (отдельных групп людей) и макросреды (общества в целом).

Конец XX - начало XXI века характеризуется 01ромными массивами постоянно растущей разнообразной информации, доступной и представляющей интерес для самых широких слоев социума. Более того, интернет-технологии и программно-технические средства, также доступные большинству людей, позволяют осуществлять данный процесс в любое время, практически в любом месте но любым запросам.

Цель любого поиска заключается в потребности, необходимости или желании находить различные виды информации, способствующие получению лицом, осуществляющим поиск, нужных ему сведений, знаний и т. д. для: повышения собственного профессионального, культурного и любого иного уровня; создания новой информации и формирования новых знаний; принятия управленческих решений и т. гг

Важность этих процессов постоянно возрастает, особенно теперь, ког да информация влияет практически на все стороны жизни общества.

С точки зрения использования компьютерной техники под информационным поиском подразумевается совокупность логических и технических операций, имеющих конечной целью нахождение документов, сведений о них, фактов, данных, релевантных запросу потребителя [44].

Существуют и другие определения. В любом случае, информационный ггоиск вызван потребностью удовлетворения информационных запросов пользователей, ожидающих с помощью поисковых систем оперативно получить необходимые им данные или сведения. Он является методом нацеленного поиска и извлечения релевантных документов и (или) фактов из различных источников информации. В качестве таковых выступают живые и неживые объекты, представляющие различные носители информации.

Средства и методы поиска информации

Для реализации действенного поиска информации в информационных сетях используются технологии поиска информации, цель которых - получить данные об информационных ресурсах сети и обеспечить пользователей возможностью оперативного поиска информации. С помощью поисковых систем в сети Интернет можно искать и находить любые электронные ресурсы.

Для обеспечения высокой эффективности в ходе поиска информации целесообразно придерживаться некоторых правил. Главными из них являются обеспечение полноты охвата ресурсов и достоверности обнаруженной информации.

Ключевым условием, определяющим возможность обнаружения той или иной информации в глобальной сети Интернет, является полнота охвата ее ресурсов. Очень часто осуществление поиска требует использования максимального числа потенциальных источников нужной информации, среди которых не только web-сайты, но и базы данных, FTP-архивы. Следовательно, в современных условиях для результативного планирования и осуществления информационных поисковых работ необходимо знание всех основных ресурсов Интернета, а также понимание технической и тематической специфики их информационного наполнения и особенностей доступа к ним [14].

Вместе с полнотой охвата ресурсов эффективность осуществляемого поиска определяется достоверностью обнаруженной информации. Проверка ее достоверности может реализовываться различными способами, которые включают розыск и сверку с другими источниками информации, определение частоты его применения другими пользователями или источниками, выявление статуса документа и сайга, на котором он размещен, нахождение сведений о компетентности и положении автора материала и ряд других.

Проблема установления достоверности информации, располагаемой в Интернете, выходит за пределы рассмотрения в рамках данного учебника, основное внимание будет уделено вопросам ее поиска.

Сетевые информационные ресурсы

По способу организации и размещения информации ее источники в Интернете можно поделить на несколько главных групп [44]:

  • файловые серверы исторически являются наиболее ранним способом размещения информационных ресурсов, они представляют собой компьютеры, часть внешней памяти которых доступна через Интернет. Доступ к ресурсам на подобном сервере выполняется при помощи специальных программ, которые поддерживают протокол передачи файлов - FTP. Для пользования этим протоколом необходимо выполнить авторизацию, то есть идентификацию пользователя. Учитывая многообразие пользователей, для реализации доступа к файлам со стороны произвольного пользователя сети Интернет используется анонимный вход под регистрационным именем anonymous, пароль для которого не нужен. Данный протокол поддерживается всеми основными браузерами;
  • web-сайты в настоящее время представляют собой основной и наиболее востребованный тип информационных ресурсов в глобальной сети Интернет. На сайге может быть размещена информация, представленная в самой различной форме: графической, звуковой, видеоизображения и т. д.;

С телеконференции представляют собой один из источников информации, но не имеющей, как правило, официального характера. Телеконференции реализуют способ общения между людьми, обладающими доступом в Интернет, и обеспечивают обсуждение конкретных вопросов или распространение информации. Они способствуют получению обратной связи от большого числа пользователей, и возможность осуществить подробное обсуждение конкретной проблемы с территориально разобщенными людьми;

S базы данных являются источниками, которые могут содержать самую различную информацию: научные публикации, нормативную или справочную информацию, другие данные. В основном используется способ доступа к базам данных через браузеры, поскольку он обеспечивает наибольшую аудиторию потребителей информации. Вместе с прямым извлечением информации из баз данных обширно применяется динамическое построение web-страниц в процессе исполнения пользовательских запросов.

Средства поиска информации

В средствах поиска, основываясь на принципе организации и применения, возможно выделить следующие инструменты [44]:

  • поисковые машины представляют собой основной инструмент поиска информации, так как хранят индексы практически всех web-серверов Интернета. Вместе с тем данное преимущество становится их основным недостатком. На любой запрос они выдают, как правило, слишком большое количество информации, среди которой только небольшая часть становится полезной, поэтому требуется большой объем времени для ее извлечения и обработки;
  • мета-средства поиска являются инструментами, обеспечивающими некоторое ускорение выполнения запроса посредством передачи ключевых слов, одновременно нескольким поисковым системам. При существенном ускорении процесса и увеличении области охвата поиска, данному способу присущи некоторые недостатки, которые связаны с потребностью согласования во времени поступления результатов обработки запроса ог нескольких систем, а также гем, что они не разрешают применять возможности языка запроса каждого из используемых поисковых средств;

'д специализированные средства поиска выступают в роли «программ- пауков», которые в автоматическом режиме просматривают web-страницы, находя на них нужную информацию. Алгоритм их работы схож с алгоритмом, который применяют поисковые системы для создания своих индексных таблиц. Выбор между первыми и вторыми является классическим выбором между применением универсальных или специализированных средств;

'д каталоги применяются пользователями сети Интернет для поиска требуемой информации. Каталог структурно похож на иерархически организованную структуру, в которую данные помещаются по инициативе пользователей. Естественно, объем информации в них может быть существенно меньшим в сравнении с поисковыми системами, но при этом более упорядочен благодаря используемой иерархической тематической структуре.

Методы поиска информации

Необходимость успешного решения той или иной задачи требует в первую очередь проведения анализа возможных методов ее решения. Поэтому решение задачи обеспечения успешного поиска информации следует начать с рассмотрения основных методов ее решения. Поиск информации в Интернете может быть осуществлен с помощью двух основополагающих методов, которые, в зависимости от его целей и задач, могут применяться по отдельности или в совокупности друг с другом:

  • S использование поисковых систем в современных условиях является одним из главных методов при проведении предварительного поиска. Использование данного метода основывается на ключевых словах, которые в последующем используются системой в качестве аргумента поиска. В результате выполнения поиска образуется список информационных ресурсов Интернета, который подлежит тщательному рассмотрению. Для получения наиболее подходящего результата необходимо выполнение предварительной работы по составлению тезауруса;
  • S поиск по гипертекстовым ссылкам является одним из широко используемых методов. Метод основывается на том, что поскольку все сайты Интернета связаны между собой гиперссылками, то поиск информации можно осуществить путем последовательного просмотра с помощью браузера web- страниц, связанных ссылками. К данному виду поиска следует также отнести использование каталогов, систематизированных и тематических списков и всевозможных мелких справочников. Естественно, данный метод очень трудоемок и требует значительных временных затрат. Тем не менее именно «ручной» просмотр web-страниц в ряде случаев оказывается единственно возможным на завершающих этапах информационного поиска. Он может быть также востребован и при просмотре новых информационных ресурсов или повторном поиске.

Информационно-поисковые системы. Общим для поисковых систем является го, что они размещаются на специально выделенных мощных серверах и присоединены к высокоэффективным каналам связи. Поисковые системы именуют также информационно-поисковыми системами (ИПС). Такие системы отличаются огромными сервисными возможностями, так, например, количество одновременно обслуживаемых посетителей может достигать многих тысяч, а наиболее известные системы обслуживают в сутки миллионы клиентов.

В случаях, когда поисковая система основывается на применении каталога, го для поиска информации используется работа модераторов.

Информационно-поисковые системы с полнотекстовым поиском основываются на автоматическом сборе информации. Он производится специализированными программами, которые периодически просматривают содержимое всех ресурсов Интернета. Для этого они самостоятельно передвигаются или, как говорят, «ползают» но различным информационным ресурсам. Поэтому подобные программы называют роботами. Существуют и иные названия: так как

WWW является аббревиатурой названия «Всемирная паутина», то подобную программу следует назвать Снайдером (по-англ. - паук). В настоящее время применяются и другие названия: автоматические индексы или директории. Все эти программы просматривают и скачивают информацию с разных URL- адресов, посещая соответственно каждый ресурс через установленное время. Естественно, что любая поисковая система не может проиндексировать весь Интернет. Следствием этого является то, что базы данных, в которые помещены адреса проиндексированных ресурсов, у различных поисковых систем разные. Несмотря на это, многие из поисковых систем пытаются, но возможности, охватывать в своей работе все информационное пространство глобальной сети Интернет. Подобные системы относятся к классу универсальных.

Проведенный анализ позволяет утверждать, что работа поисковой системы основывается на трех составляющих:

  • ?S программа «робот» (спайдер), которая проводит анализ информационных ресурсов и осуществляет их индексацию;
  • ?С индексы, создаваемые поисковой системой. Они обеспечивают формирование собственных баз данных;
  • ?S программа, которая в соответствии с запросом пользователя готовит ему ответ на основе анализа индексов, т. е. собственных БД.

Естественно, пользователь в действительности практически общается только с последней из этих грех составляющих.

Мощные поисковые системы универсального типа разработаны для работы на всех основных языках мира. Каждая страна стремится разработать свои собственные поисковые системы. Рассмотрим ведущие отечественные и зарубежные поисковые системы.

Основные отечественные и зарубежные поисковые системы

В России наибольшей популярностью пользуются следующие поисковые системы (рис. 9.22).

ЯНДЕКС (http://www.yandex.ru) является устойчивым лидером русского сегмента Интернета (Рунета). Доля данной информационно-поисковой системы в поисковом рынке составляет 54,1%. Данная IT-компания достаточно быстро развивается, обладает собственными алгоритмами поиска и показателем ранжирования сайтов - ТИЦ.

Особенности:

информационно-поисковая система применяет алгоритм персонализированного поиска и геозависимости запросов в зависимости от региона сайта и пользователя;

S в поисковой системе Яндекс реализована хорошо развитая система подсказок, исправления ошибок;

Яндекс содержит в своем составе значительное количество полезных приложений, которые объединены с поисковой системой.

GOOGLE (http://www.goggle.com) является лидером мирового информационного пространства и крупнейшей поисковой системой в мире, но в отечественном сегменте этот гигант так и не смог захватить лидерство и располагается на 2 месте в рейтинге, занимая большую долю рынка - 35,1%.

Популярные информационно-поисковые системы

Рис. 9.22. Популярные информационно-поисковые системы

Особенности:

S поисковая система снабжена собственным движком и алгоритмом поиска, имеет собственные показатели ранжирования, которые известны иод аббревиатурой PR (PageRank);

  • ?S Google снабжена значительным количеством популярнейших сервисов, которые объединены с поисковой системой, включая рекламные объявления сайтов - Adwords;
  • ?S Google располагает более 100 региональными версиями для различных стран мира.

SEARCH.MAIL.RU. Поисковый сервис от компании Mail.ru находится на 3 месте в рейтинге лучших поисковых систем русского сегмента Интернета, занимая 8,3% рынка. Компания Mail.ru с момента своего образования реализовывала только почтовый сервис, но в настоящее время она предоставляет, кроме него, еще 40 крупных сервисов, в том числе и поисковый.

Особенности:

S поиск Mail.ru располагается по адресу http://go.mail.ru;

  • ?S поисковая система при поиске информационных ресурсов за рубежом работает на базе движка от Google, а для поиска в Рунете использует собственный - GoGo.ru;
  • ?S для ранжирования сайтов используется порядка 250 факторов, включая поведенческий фактор.

RAMBLER (http://www.rambler.ru). Рамблер является востребованной поисковой системой, занимая 4 ступеньку в рейтинге лучших поисковых систем. Рамблер разработан и запущен российскими учеными в 1997 году, в настоящее время она занимает 0,8% российского поискового рынка.

Особенности:

S поисковый индекс системы обновляется ежедневно, поэтому система обеспечивает нахождение самой свежей информации;

?S с 2011 года, по соглашению с Яндексом, использует его поисковый алгоритм и уже не является самостоятельной поисковой системой.

BING (https://www.bing.com/). Данная поисковая система занимает 5 место в рейтинге лучших поисковых систем русского сегмента Интернета. В настоящее время она занимает 0,6% российского поискового рынка.

Особенности:

S работа системы Bing основывается на движке «Кито», который с трудом индексирует русскоязычные сайты;

S в поисковой системе реализована возможность поиска но изображениям;

S поисковая система Bing хорошо работает с видео и Flash-анимацией.

Технология поиска информации с использованием поисковых машин

Одним из наиболее используемых методов для нахождения информационных ресурсов, но в то же время и достаточно сложным считается метод поиска с использованием поисковых систем. Его популярность и обширная распространенность определяется тем, что поисковые системы хранят в себе индексы колоссального количества сайтов и при профессионально созданном запросе можно немедленно получить ссылки на искомые ресурсы. Сложность метода заключается в умении выбора наиболее пригодных поисковых систем, корректно сформулировать запросы к ним с учетом особенностей выбранных систем и их функциональных возможностей.

Выявленные сложности в использовании метода поиска с использованием поисковых систем объясняются тем, что для реализации эффективного поиска необходимо одновременно решить две полярные задачи: увеличивать охват для извлекания максимального количества значимой информации и уменьшать охват для минимизации ненужной информации. Естественно, что решить одновременно эти задачи достаточно сложно, хотя отыскать решение, близкое к оптимальному, все-таки возможно.

Технологию поиска информации с использованием поисковых машин можно представить в виде последовательности выполнения нескольких этапов.

Этап составления тезауруса. Исследования, проведенные для разных текстов, свидетельствуют, что наиболее значимые слова текста встречаются со средней частотой, поскольку максимально часто встречающиеся слова преимущественно являются предлогами, частицами, местоимениями, а редко встречающиеся слова в большинстве случаев не имеют решающего значения.

Для результативного применения поисковых серверов в первую очередь нужен список ключевых слов, сформированный с учетом семантических отношений между ними, то есть тезаурус.

Этап отбора поисковых систем. Основной целью данного этана является установление последовательности применения поисковых машин в соответствии с убыванием ожидаемой результативности поиска с применением каждой из них.

В настоящее время используется несколько сотен поисковых систем, которые отличаются регионами охвата, принципами осуществления поиска, объемом индексной базы, частотой обновления информации, способностью искать уникальную информацию. Ключевыми критериями отбора поисковых систем являются объем индексной базы сервера и степень эффективности поисковой машины, то есть уровень сложности воспринимаемых ею запросов.

Для поиска информации но российскому сегменту Интернета целесообразно воспользоваться российскими поисковыми системами, поскольку они снабжены русскоязычным интерфейсом, возможностями поиска но русским словам, учитывают особенности русского языка, близость расположения сервера. Для поиска по зарубежным ресурсам следует пользоваться мультиязычными поисковыми машинами, которые имеют, в гом числе и русскоязычный пользовательский интерфейс, а также возможность перевода найденных страниц на русский язык (например, Google).

Поскольку поисковых систем в глобальной сети Интернет много, то отсутствие единого стандарта на решение задачи поиска неизбежно ведет к разработке собственных способов решения поставленной задачи.

В результате пользователь, который не совсем знаком с особенностями синтаксических конструкций запросов к конкретной поисковой системе, или не целиком использует потенциал системы, или, частично уяснив функции конкретной системы, систематически обращается лишь к ней.

Для выполнения поиска сразу в нескольких поисковых системах следует пользоваться мета-поисковыми системами, которые способны обращаться одновременно к нескольким поисковым средствам, например NIGMA.

Такая поисковая система располагает единым языком запросов, а в ряде случаев и возможностью перевода ключевых слов на другие языки. Метаноисковые системы, принимая результаты запросов от других поисковых систем, обрабатывают полученные материалы, убирая повторяющиеся ссылки, и располагают их но степени полезности.

Этап составления и выполнения запросов к поисковым машинам в сравнении с другими представляется как самый объемный и сложный, поскольку он связан с обработкой существенного количества информации, основная часть которой, как правило, не является востребованной.

Запросы на поиск требуемой информации к отобранным поисковым серверам создаются на основе тезауруса. Результатом отработки созданного запроса для поисковой системы является получение первоначальных результатов, анализ которых позволяет уточнить запрос с целью отсечь явно ненужную информацию. Далее следует осуществить отбор информационных ресурсов, начиная с наиболее релевантных, с точки зрения заданных целей поиска. Отобранные информационные ресурсы собираются для последующего анализа.

В общем случае и семантика, и формат создаваемых запросов могут отличаться в зависимости от используемой поисковой системы и конкретной предметной области. Тем не менее запросы должны формулироваться таким образом, чтобы область поиска была по возможности конкретизирована и сужена, поэтому лучше использовать несколько узких запросов, чем один расширенный. Как следствие, целесообразно для каждого основного понятия из тезауруса подготовить свою совокупность запросов. В дальнейшем осуществляется их пробная реализация - как для уточнения и пополнения тезауруса, так и с целью отсечения ненужной информации.

Языки запроса различных машин поиска, несмотря на отличия, имеют общие элементы, которые проявляются сочетанием следующих функций:

S реализация поиска документов при помощи операторов булевой алгебры AND, OR, NOT, AND (И). OR (ИЛИ) - искомый текст должен содержать хотя бы один из терминов, соединенных данным оператором; NOT (НЕ) - поиск документов, в тексте которых отсутствуют термины, следующие за данным оператором;

S реализация поиска документов при помощи операторов, устанавливающих определенный порядок и положение терминов в запросе: FOLLOWED BY - термины следуют в заданном порядке; NEAR - второй термин должен находиться на расстоянии от первого, не превышающем определенного числа слов; ADJ - термины, соединенные оператором, являются смежными;

  • ?S возможность сокращения числа символов термина в запросе, посредством употребления символа * вместо части символов его окончания;
  • •S учет морфологии языка - машина автоматически учитывает все формы данного термина, возможные в языке, на котором ведется поиск;
  • ?S возможность поиска по словосочетанию, фразе;

S ограничение поиска элементом документа (слова запроса должны находиться именно в заголовке, первом абзаце, ссылках и т. д.);

S ограничение по дате опубликования документа;

S ограничение на количество совпадений терминов;

S возможность поиска графических изображений;

S чувствительность к строчным и прописным буквам.

Полученный список ссылок на искомые документы в результате проведенного поиска обрабатывается в два этапа. На первом этапе осуществляется отбрасывание явно не подходящих источников, которые попали в выборку в силу изъянов поисковой машины или недостаточной «интеллектуальности» запроса. Одновременно выполняется семантический анализ, который должен уточнить тезаурус для видоизменения последующих запросов. В дальнейшем обработка осуществляется путем последовательного обращения на каждый из найденных ресурсов и анализа находящейся там информации.

Этап анализа ресурсов и сбора информации. Завершающим этапом поиска является анализ ресурсов и сбор искомой информации. Для проведения первичного анализа найденных информационных ресурсов используют их аннотации, если они есть, в противном случае осуществляют ознакомление с информационным наполнением ресурса. В дальнейшем информация извлекается с выбранных источников и применяется но назначению в соответствии с целями поиска.

Вопросы для самоконтроля

  • 1. Что такое компьютерная сеть?
  • 2. В чем достоинства и недостатки компьютерной сети?
  • 3. Какие виды компьютерных сетей вам известны?
  • 4. По каким признакам можно классифицировать компьютерные сети?
  • 5. Какие принципы построения компьютерных сетей существуют?
  • 6. Перечислите уровни сетевой модели OSI.
  • 7. Что такое локальная сеть? Какие ее характеристики?
  • 8. Что такое топология сети?
  • 9. Чем звездообразная топология отличается от кольцевой?

К). На каком основании выбирается топология компьютерной сети?

  • 11. Что такое одноранговая сеть?
  • 12. Какие базовые технологии построения компьютерных сетей?
  • 13. Перечислите известные вам виды проводных соединений.
  • 14. Почему оптоволоконный кабель не получил повсеместного распространения, несмотря на свои достоинства?
  • 15. Что такое глобальная сеть? Какие ее особенности?
  • 16. Чем отличается сеть с коммутацией каналов от сети с коммутацией пакетов?
  • 17. Что такое Интернет? Что такое сетевой протокол и зачем он нужен?
  • 18. Какие вам известны способы подключения к сети Интернет?
  • 19. В чем разница между сетевой моделью и стеком протоколов?
  • 20. Перечислите известные вам протоколы транспортного уровня стека TCP/IP.
  • 21. Опишите систему адресации в сети Интернет.
  • 22. Какие сервисные возможности сети Интернет?
  • 23. Какие сетевые технологии используются в службе WWW?
  • 24. Технология поиска информации в сети Интернет.
 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ ОРИГИНАЛ   След >