Индексирование в поисковых системах: поиск иголки в самом большом в мире стоге сена

Ну, Гек, с того места, где ты стоишь, можно удочкой достать до входа. А попробуй-ка разыскать его.

Марк Твен «Приключения Тома Сойера»

Поисковые системы оказывают колоссальное влияние на нашу жизнь. Но обращаясь к ним с запросами много раз на дню, мы редко задумываемся над тем, как этот замечательный инструмент работает. Огромный объем доступной информации, скорость поиска и качество его результатов кажутся настолько естественными, что мы раздражаемся, когда ответ не приходит за одну-две секунды. Мы как-то забываем, что каждый успешный поиск находит иголку в самом большом в мире стоге сена: Всемирной паутине.

Но в действительности, достойный восхищения сервис поисковых систем объясняется не только тем, что на проблему брошены гигантские технические ресурсы. Да, это правда, что любая компания, владеющая крупной поисковой системой, располагает разбросанной по всему миру сетью мощнейших центров обработки данных, в которых стоят тысячи серверов и самое передовое сетевое оборудование. Но вся эта груда железа была бы бесполезна без умных алгоритмов, с помощью которых производится организация информации и поиск в ней. В этой и следующей главе мы рассмотрим алгоритмические жемчужины, которые приводят в движение весь механизм всякий раз, как мы обращаемся с запросом. Как мы скоро увидим, среди задач, решаемых поисковой системой, две занимают особое место: сопоставление и ранжирование. В этой главе мы рассмотрим остроумную технику сопоставления: трюк с метасловами. А в следующей обратимся к задаче ранжирования и изучим знаменитый алгоритм PageRank, придуманный Google.

 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ ОРИГИНАЛ   След >