Feature Store. КПП

Содержание

Слайд 2

Что такое Feature Store

Feature Store - это персистентное хранилище атрибутов, предназначенное для

Что такое Feature Store Feature Store - это персистентное хранилище атрибутов, предназначенное
обмена атрибутами между режимами Offline, NRT, Online и Студии, характеризующееся быстрым доступом к атрибутам по ключу

Какие задачи

Быстрый доступ к фичам в online-сценариях генерации рекомендаций
Удобное управления фичами для исполнения моделей и движка бизнес-правил
Переиспользование фичей между моделями
Единые правила и способы работы с фичами в online-сценариях
Реестр фичей и UI для работы с метаданными фичей
Обновление фичей в NRT-режиме
Версионирование и тегирование фичей

Слайд 3

Какие Feature Store рассматривали

Open Source / On-premise

SaaS / Cloud

Принято решение реализовывать свой
Feature

Какие Feature Store рассматривали Open Source / On-premise SaaS / Cloud Принято
Store

Слайд 4

Airflow

S3

Сценарии использования

1. Периодическая генерация фичей

Feature Store

Online Recommendation Service

Streaming

2. Генерация фичей в NRT-режиме

Feature

Airflow S3 Сценарии использования 1. Периодическая генерация фичей Feature Store Online Recommendation
Store

Online Recommendation Service

Kafka

Models

Models

Recommendations

Recommendations

Слайд 5

Архитектура

Feature Store на основе MongoDB + Python SDK

Архитектура Feature Store на основе MongoDB + Python SDK

Слайд 6


]

Концепции

Feature
- Name
- Type
- Description

Feature View
- Name

] Концепции Feature - Name - Type - Description Feature View -
- Version
- Entity Key
- Features[]
- Metadata
- Tags[]
- Owners[]
- Description
- TTL

Python SDK:

create_feature_view()
list_feature_view()
describe_feature_view()
drop_feature_view()
materialize_features()
put_online_features()
get_online_features()

Слайд 7

Customer Journey

Разработка фичей

Разработка DAG материализации фичей в Feature Store

Создание
Feature View

Разработка NRT

Customer Journey Разработка фичей Разработка DAG материализации фичей в Feature Store Создание
обработчика потока данных

Разработка Online Recommendation Service

Подготовка данных и
извлечение признаков

Разработка пайплайна для
обновления признаков в Feature Store

Использование фичей
в online-сценариях

Слайд 8

Разработка фичей

S3 (raw data)

S3 (processed features)

Airflow DAG

Experiments, Feature Engineering
Разработка Airflow DAG по

Разработка фичей S3 (raw data) S3 (processed features) Airflow DAG Experiments, Feature
построению таблицы с фичами

Слайд 9

Создание Feature View

Включить в DAG этап создания Feature View
Описать Feature View с

Создание Feature View Включить в DAG этап создания Feature View Описать Feature
помощью Python ML SDK

Слайд 10

Материализация фичей

Включить в DAG этап материализации фичей

Материализация фичей Включить в DAG этап материализации фичей

Слайд 11

Обновление фичей в NRT

Включить в NRT-обработку данных запись фичей в Feature Store
Это

Обновление фичей в NRT Включить в NRT-обработку данных запись фичей в Feature
можно реализовать через Spark Streaming UDF или собственный NRT-сервис

Слайд 12

Получение фичей в Online Rec Service

Включить в ORS получение фичей из Feature

Получение фичей в Online Rec Service Включить в ORS получение фичей из Feature Store
Store

Слайд 13

План

На релиз:
- Хранилище на основе MongoDB
- Python SDK:
- materialize_features()

План На релиз: - Хранилище на основе MongoDB - Python SDK: -
- get_features()
- put_features()
После релиза:
- Работа с метаданными FeatureView
- Валидация метаданных
- Интеграция с Data Catalog
- Интеграция с движком бизнес-правил
- UI по просмотру метаданных
- TTL данных

Слайд 14

Общее сравнение

Общее сравнение

Слайд 15

Почему не подошел Feast

Нет интеграции с MongoDB
Невозможно делать поиск по значению фичей

Почему не подошел Feast Нет интеграции с MongoDB Невозможно делать поиск по
(нужно для движка бизнес правил)
Интеграция с Kafka поддерживается только через Spark Streaming
Фичи работы в NRT режиме и работы с Spark находятся в Alpha версии и не поддерживаются Maintainer
Сравнение по скорости Feast + Redis с собственным решением на Redis показало, что собственная реализация в 3 раза быстрее
Чтобы выгрузить датасет с фичами - необходимо подать на вход все Entity ID, что довольно неудобно
Невозможно использовать для event-подобных данных (для оффлайн стора), только для классических фичей-характеристик сущностей
Имя файла: Feature-Store.-КПП.pptx
Количество просмотров: 20
Количество скачиваний: 0