Слайд 2ВЕРТИКАЛЬНЫЙ ПОИСК
Ориентирован на определенную область
Данные хранятся с учетом структуры предметной области
Позволяет более
точно задать запрос
Возможность фильтрации, сортировки
Слайд 4ПРИМЕРЫ ЗАПРОСОВ
черная икра в ресторане с караоке около кремля
гостиница с бассейном около
киевской
комплексная мойка в выхино
преображенская площадь бассейн 50 метров
банкомат с долларами рядом с пушкинской
Слайд 5ПОДХОДЫ К СБОРУ ДАННЫХ
Полуавтоматический
(+) Универсальность
(+) Гибкость
(-) Временные затраты
(-) Участие человека
Автоматический
(-) Не для
каждого сайта
(+) Быстро
(+) Дешево
Слайд 6ПОЛУАВТОМАТИЧЕСКИЙ СБОР
Свести к минимуму человеческое участие
Легкость реализации
Простота поддержки
Никаких RegExp, XPath
Слайд 8КЛАСС
Описывает структуру предметной области
Похож на ООП класс
Набор правил, как эту структуру обрабатывать
и валидировать, нормализовывать
Слайд 9ПРИМЕР КЛАССА
Товар интернет магазина
Слайд 10ПРИМЕРЫ ТИПОВ
price
1 000,10р. -> 1000.00
1,000,000 рублей -> 1000000.00
address
Пушкинская -> Москва, Пушкинская
площадь; lat: 44.333, lon: 33.112,
Слайд 11ПРИМЕР ШАБЛОНА
Средние временные затраты на 1 шаблон: 10-15 минут
Слайд 12РЕЗУЛЬТАТ РАБОТЫ ШАБЛОНА
Данные структурированы , провалидированы, нормализованы
Удалены дубли
Есть diff по сравнению
с предыдущими данными
Мониторинг «отвалившихся» шаблонов
Слайд 13ВОЗМОЖНОСТИ ПОИСКА
Разбор запроса
Поддержка морфологии и транслита
Неверная раскладка клавиатуры
«Возможно, вы имели в виду»
Фасеты
Фильтрация,
сортировка, группировка
Гео-поиск
Слайд 14РЕАЛИЗАЦИЯ
Работает на базе Apache Solr
Разная структура документа в зависимости от предметной
области
Можно гибко настраивать правила индексации через метаданные класса
Отдельный индекс для анализа запроса