СБОР И ПОИСК СТРУКТУРИРОВАННОЙ ИНФОРМАЦИИ

Содержание

Слайд 2

ВЕРТИКАЛЬНЫЙ ПОИСК

Ориентирован на определенную область
Данные хранятся с учетом структуры предметной области
Позволяет более

ВЕРТИКАЛЬНЫЙ ПОИСК Ориентирован на определенную область Данные хранятся с учетом структуры предметной
точно задать запрос
Возможность фильтрации, сортировки

Слайд 3

ПРИМЕР

ПРИМЕР

Слайд 4

ПРИМЕРЫ ЗАПРОСОВ

черная икра в ресторане с караоке около кремля
гостиница с бассейном около

ПРИМЕРЫ ЗАПРОСОВ черная икра в ресторане с караоке около кремля гостиница с
киевской
комплексная мойка в выхино
преображенская площадь бассейн 50 метров
банкомат с долларами рядом с пушкинской

Слайд 5

ПОДХОДЫ К СБОРУ ДАННЫХ

Полуавтоматический
(+) Универсальность
(+) Гибкость
(-) Временные затраты
(-) Участие человека

Автоматический
(-) Не для

ПОДХОДЫ К СБОРУ ДАННЫХ Полуавтоматический (+) Универсальность (+) Гибкость (-) Временные затраты
каждого сайта
(+) Быстро
(+) Дешево

Слайд 6

ПОЛУАВТОМАТИЧЕСКИЙ СБОР

Свести к минимуму человеческое участие
Легкость реализации
Простота поддержки
Никаких RegExp, XPath

ПОЛУАВТОМАТИЧЕСКИЙ СБОР Свести к минимуму человеческое участие Легкость реализации Простота поддержки Никаких RegExp, XPath

Слайд 7

ИДЕЯ

ИДЕЯ

Слайд 8

КЛАСС

Описывает структуру предметной области
Похож на ООП класс
Набор правил, как эту структуру обрабатывать

КЛАСС Описывает структуру предметной области Похож на ООП класс Набор правил, как
и валидировать, нормализовывать

Слайд 9

ПРИМЕР КЛАССА

Товар интернет магазина

ПРИМЕР КЛАССА Товар интернет магазина

Слайд 10

ПРИМЕРЫ ТИПОВ

price
1 000,10р. -> 1000.00
1,000,000 рублей -> 1000000.00
address
Пушкинская -> Москва, Пушкинская

ПРИМЕРЫ ТИПОВ price 1 000,10р. -> 1000.00 1,000,000 рублей -> 1000000.00 address
площадь; lat: 44.333, lon: 33.112,

Слайд 11

ПРИМЕР ШАБЛОНА

Средние временные затраты на 1 шаблон: 10-15 минут

ПРИМЕР ШАБЛОНА Средние временные затраты на 1 шаблон: 10-15 минут

Слайд 12

РЕЗУЛЬТАТ РАБОТЫ ШАБЛОНА

Данные структурированы , провалидированы, нормализованы
Удалены дубли
Есть diff по сравнению

РЕЗУЛЬТАТ РАБОТЫ ШАБЛОНА Данные структурированы , провалидированы, нормализованы Удалены дубли Есть diff
с предыдущими данными
Мониторинг «отвалившихся» шаблонов

Слайд 13

ВОЗМОЖНОСТИ ПОИСКА

Разбор запроса
Поддержка морфологии и транслита
Неверная раскладка клавиатуры
«Возможно, вы имели в виду»
Фасеты
Фильтрация,

ВОЗМОЖНОСТИ ПОИСКА Разбор запроса Поддержка морфологии и транслита Неверная раскладка клавиатуры «Возможно,
сортировка, группировка
Гео-поиск

Слайд 14

РЕАЛИЗАЦИЯ

Работает на базе Apache Solr
Разная структура документа в зависимости от предметной

РЕАЛИЗАЦИЯ Работает на базе Apache Solr Разная структура документа в зависимости от
области
Можно гибко настраивать правила индексации через метаданные класса
Отдельный индекс для анализа запроса
Имя файла: СБОР-И-ПОИСК-СТРУКТУРИРОВАННОЙ-ИНФОРМАЦИИ.pptx
Количество просмотров: 93
Количество скачиваний: 0