Слайд 2ВЕРТИКАЛЬНЫЙ ПОИСК
Ориентирован на определенную область
Данные хранятся с учетом структуры предметной области
Позволяет более

точно задать запрос
Возможность фильтрации, сортировки
Слайд 4ПРИМЕРЫ ЗАПРОСОВ
черная икра в ресторане с караоке около кремля
гостиница с бассейном около

киевской
комплексная мойка в выхино
преображенская площадь бассейн 50 метров
банкомат с долларами рядом с пушкинской
Слайд 5ПОДХОДЫ К СБОРУ ДАННЫХ
Полуавтоматический
(+) Универсальность
(+) Гибкость
(-) Временные затраты
(-) Участие человека
Автоматический
(-) Не для

каждого сайта
(+) Быстро
(+) Дешево
Слайд 6ПОЛУАВТОМАТИЧЕСКИЙ СБОР
Свести к минимуму человеческое участие
Легкость реализации
Простота поддержки
Никаких RegExp, XPath

Слайд 8КЛАСС
Описывает структуру предметной области
Похож на ООП класс
Набор правил, как эту структуру обрабатывать

и валидировать, нормализовывать
Слайд 9ПРИМЕР КЛАССА
Товар интернет магазина

Слайд 10ПРИМЕРЫ ТИПОВ
price
1 000,10р. -> 1000.00
1,000,000 рублей -> 1000000.00
address
Пушкинская -> Москва, Пушкинская

площадь; lat: 44.333, lon: 33.112,
Слайд 11ПРИМЕР ШАБЛОНА
Средние временные затраты на 1 шаблон: 10-15 минут

Слайд 12РЕЗУЛЬТАТ РАБОТЫ ШАБЛОНА
Данные структурированы , провалидированы, нормализованы
Удалены дубли
Есть diff по сравнению

с предыдущими данными
Мониторинг «отвалившихся» шаблонов
Слайд 13ВОЗМОЖНОСТИ ПОИСКА
Разбор запроса
Поддержка морфологии и транслита
Неверная раскладка клавиатуры
«Возможно, вы имели в виду»
Фасеты
Фильтрация,

сортировка, группировка
Гео-поиск
Слайд 14РЕАЛИЗАЦИЯ
Работает на базе Apache Solr
Разная структура документа в зависимости от предметной

области
Можно гибко настраивать правила индексации через метаданные класса
Отдельный индекс для анализа запроса