Как сегодня работает поисковая система

Содержание

Слайд 2

Поисковый кластер

Два дешевых сервера вычислят больше запросов и проиндексируют больше web-страниц, чем

Поисковый кластер Два дешевых сервера вычислят больше запросов и проиндексируют больше web-страниц,
один дорогой.
Критерии выбора серверов:
Стоимость
Производительность
Размер
Потребление электроэнергии и тепловыделение

Слайд 3

Плюсы:
Высокая производительность
Низкая стоимость
Простота изготовления, отсутствие «загадочных болезней»
Минус:
Высокая частота отказов оборудования

Много дешевых машин

Плюсы: Высокая производительность Низкая стоимость Простота изготовления, отсутствие «загадочных болезней» Минус: Высокая

Слайд 4

Программное обеспечение:
Исключение сбойных серверов из кластера, перераспределение нагрузки на оставшиеся в строю

Программное обеспечение: Исключение сбойных серверов из кластера, перераспределение нагрузки на оставшиеся в
машины;
Хранение данных в нескольких экземплярах
Непрерывный контроль целостности данных

И как же с этим бороться?

Слайд 5

Примеры
RADIST: распределенное хранилище данных Рамблера;
HICS: система для распределенного хранения и быстрой обработки

Примеры RADIST: распределенное хранилище данных Рамблера; HICS: система для распределенного хранения и
сверхбольших массивов данных;
Автоматическое «голодание» поисковых модулей.

Слайд 6

Что в результате?

Из ненадежного «железа» и специального программного обеспечения можно построить надежную

Что в результате? Из ненадежного «железа» и специального программного обеспечения можно построить надежную и производительную систему.
и производительную систему.

Слайд 7

Что хранится в кластере?

Полный комплект веб-страниц, которые скачивал робот + частично хранится

Что хранится в кластере? Полный комплект веб-страниц, которые скачивал робот + частично
история изменения страниц
Архив поисковых запросов
Метаинформация
Данные о посещаемости страниц Сети

Слайд 8

Как объем данных помогает улучшить поиск

Робот научился распознавать и удалять из URL

Как объем данных помогает улучшить поиск Робот научился распознавать и удалять из
необязательные параметры
Индексатор стал лучше понимать естественный язык (повышение качества лингвистического анализа)
Выявление «горячих» запросов и специальное ранжирование. Эврика!
Разделение веб-страниц на смысловую часть и элементы навигации/дизайна.

Слайд 9

Что ищут на Рамблере:

Авария Николая Караченцова:
Небольшой всплеск перед публикациями в СМИ
Резкое увеличение

Что ищут на Рамблере: Авария Николая Караченцова: Небольшой всплеск перед публикациями в
запросов сразу после первых сообщений
Расширение тематики (номер машины, супруга, дилер, нейрохирурги и т. д.)
Спад интереса
GTA San Andreas:
Лавина запросов «коды gta san andreas»
Горячий кофе
Сейчас:
Зимняя резина, убийство Нуркадилова, пожар в сетуньском проезде, Т. Качарава и М. Згибай, IPS-19

Слайд 10

Как это выглядит?

Как это выглядит?

Слайд 11

Как это выглядит?

Как это выглядит?
Имя файла: Как-сегодня-работает-поисковая-система.pptx
Количество просмотров: 127
Количество скачиваний: 0