Содержание
- 2. Поисковый кластер Два дешевых сервера вычислят больше запросов и проиндексируют больше web-страниц, чем один дорогой. Критерии
- 3. Плюсы: Высокая производительность Низкая стоимость Простота изготовления, отсутствие «загадочных болезней» Минус: Высокая частота отказов оборудования Много
- 4. Программное обеспечение: Исключение сбойных серверов из кластера, перераспределение нагрузки на оставшиеся в строю машины; Хранение данных
- 5. Примеры RADIST: распределенное хранилище данных Рамблера; HICS: система для распределенного хранения и быстрой обработки сверхбольших массивов
- 6. Что в результате? Из ненадежного «железа» и специального программного обеспечения можно построить надежную и производительную систему.
- 7. Что хранится в кластере? Полный комплект веб-страниц, которые скачивал робот + частично хранится история изменения страниц
- 8. Как объем данных помогает улучшить поиск Робот научился распознавать и удалять из URL необязательные параметры Индексатор
- 9. Что ищут на Рамблере: Авария Николая Караченцова: Небольшой всплеск перед публикациями в СМИ Резкое увеличение запросов
- 10. Как это выглядит?
- 11. Как это выглядит?
- 13. Скачать презентацию