Слайд 2ВЕРТИКАЛЬНЫЙ ПОИСК
Ориентирован на определенную область
Данные хранятся с учетом структуры предметной области
Позволяет более
![ВЕРТИКАЛЬНЫЙ ПОИСК Ориентирован на определенную область Данные хранятся с учетом структуры предметной](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/416472/slide-1.jpg)
точно задать запрос
Возможность фильтрации, сортировки
Слайд 4ПРИМЕРЫ ЗАПРОСОВ
черная икра в ресторане с караоке около кремля
гостиница с бассейном около
![ПРИМЕРЫ ЗАПРОСОВ черная икра в ресторане с караоке около кремля гостиница с](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/416472/slide-3.jpg)
киевской
комплексная мойка в выхино
преображенская площадь бассейн 50 метров
банкомат с долларами рядом с пушкинской
Слайд 5ПОДХОДЫ К СБОРУ ДАННЫХ
Полуавтоматический
(+) Универсальность
(+) Гибкость
(-) Временные затраты
(-) Участие человека
Автоматический
(-) Не для
![ПОДХОДЫ К СБОРУ ДАННЫХ Полуавтоматический (+) Универсальность (+) Гибкость (-) Временные затраты](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/416472/slide-4.jpg)
каждого сайта
(+) Быстро
(+) Дешево
Слайд 6ПОЛУАВТОМАТИЧЕСКИЙ СБОР
Свести к минимуму человеческое участие
Легкость реализации
Простота поддержки
Никаких RegExp, XPath
![ПОЛУАВТОМАТИЧЕСКИЙ СБОР Свести к минимуму человеческое участие Легкость реализации Простота поддержки Никаких RegExp, XPath](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/416472/slide-5.jpg)
Слайд 8КЛАСС
Описывает структуру предметной области
Похож на ООП класс
Набор правил, как эту структуру обрабатывать
![КЛАСС Описывает структуру предметной области Похож на ООП класс Набор правил, как](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/416472/slide-7.jpg)
и валидировать, нормализовывать
Слайд 9ПРИМЕР КЛАССА
Товар интернет магазина
![ПРИМЕР КЛАССА Товар интернет магазина](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/416472/slide-8.jpg)
Слайд 10ПРИМЕРЫ ТИПОВ
price
1 000,10р. -> 1000.00
1,000,000 рублей -> 1000000.00
address
Пушкинская -> Москва, Пушкинская
![ПРИМЕРЫ ТИПОВ price 1 000,10р. -> 1000.00 1,000,000 рублей -> 1000000.00 address](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/416472/slide-9.jpg)
площадь; lat: 44.333, lon: 33.112,
Слайд 11ПРИМЕР ШАБЛОНА
Средние временные затраты на 1 шаблон: 10-15 минут
![ПРИМЕР ШАБЛОНА Средние временные затраты на 1 шаблон: 10-15 минут](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/416472/slide-10.jpg)
Слайд 12РЕЗУЛЬТАТ РАБОТЫ ШАБЛОНА
Данные структурированы , провалидированы, нормализованы
Удалены дубли
Есть diff по сравнению
![РЕЗУЛЬТАТ РАБОТЫ ШАБЛОНА Данные структурированы , провалидированы, нормализованы Удалены дубли Есть diff](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/416472/slide-11.jpg)
с предыдущими данными
Мониторинг «отвалившихся» шаблонов
Слайд 13ВОЗМОЖНОСТИ ПОИСКА
Разбор запроса
Поддержка морфологии и транслита
Неверная раскладка клавиатуры
«Возможно, вы имели в виду»
Фасеты
Фильтрация,
![ВОЗМОЖНОСТИ ПОИСКА Разбор запроса Поддержка морфологии и транслита Неверная раскладка клавиатуры «Возможно,](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/416472/slide-12.jpg)
сортировка, группировка
Гео-поиск
Слайд 14РЕАЛИЗАЦИЯ
Работает на базе Apache Solr
Разная структура документа в зависимости от предметной
![РЕАЛИЗАЦИЯ Работает на базе Apache Solr Разная структура документа в зависимости от](/_ipx/f_webp&q_80&fit_contain&s_1440x1080/imagesDir/jpg/416472/slide-13.jpg)
области
Можно гибко настраивать правила индексации через метаданные класса
Отдельный индекс для анализа запроса