Решении DM/ML задач

Содержание

Слайд 2

Задача

Нам дали данные.
Нам поставили задачу.
Мы знаем какой должен быть результат.

Результат

Случайный лес

Случайный лес

DM

Задача Нам дали данные. Нам поставили задачу. Мы знаем какой должен быть
Labs

Задача

Слайд 3

Задача

Нам дали данные.
Нам поставили задачу.
Мы знаем какой должен быть результат.

Результат

Давайте решим влоб!
RF/SVM,

Задача Нам дали данные. Нам поставили задачу. Мы знаем какой должен быть
вдруг сработает

Случайный лес

Случайный лес

DM Labs

Задача

Слайд 4

Задача

Нам дали данные.
Нам поставили задачу.
Мы знаем какой должен быть результат.

Результат

Случайный лес

Случайный лес

DM

Задача Нам дали данные. Нам поставили задачу. Мы знаем какой должен быть
Labs

Задача

Слайд 5

Что произошло?
Мы что-то где-то упустили.

Результат

Случайный лес

Случайный лес

DM Labs

Что пошло не так?

Что произошло? Мы что-то где-то упустили. Результат Случайный лес Случайный лес DM

Слайд 6

Что произошло?
Мы поставили гипотезу: применим RF влоб, вдруг сработает.

Результат

Случайный лес

Случайный лес

DM

Что произошло? Мы поставили гипотезу: применим RF влоб, вдруг сработает. Результат Случайный
Labs

Что пошло не так?

Слайд 7

Модель.
Что если мы ошиблись с RF/SVM?
Тоесть, все заработало, но результат был плох?

Результат

Модель

Случайный

Модель. Что если мы ошиблись с RF/SVM? Тоесть, все заработало, но результат
лес

Случайный лес

DM Labs

Модели

Слайд 8

Модель.
Что если мы ошиблись с RF/SVM?
Мы же не накосячили с тренировочным, валидационным

Модель. Что если мы ошиблись с RF/SVM? Мы же не накосячили с
и тестовым множествами, а также CV?

Результат

Модель

Случайный лес

Случайный лес

DM Labs

Модели. Обучающие множества

Слайд 9

Модель.

Результат

Модель

Есть:
Обученная модель
Результат ее работы на валидационном(тестовом) множестве (ошибка)

Случайный лес

Случайный лес

DM Labs

Что мы

Модель. Результат Модель Есть: Обученная модель Результат ее работы на валидационном(тестовом) множестве
хотим от моделей?

Слайд 10

Модель.

Результат

Модель

Есть:
Обученная модель
Результат ее работы на валидационном(тестовом) множестве (ошибка)

Хотим:
Улучшить (обобщающую) точность

Случайный лес

Случайный лес

DM

Модель. Результат Модель Есть: Обученная модель Результат ее работы на валидационном(тестовом) множестве
Labs

Что мы хотим от моделей?

Слайд 11

Модель.

Результат

Модель

Хотим:
Улучшить (обобщающую) точность

Чем можем управлять:
Гиперпараметры
Лучший их выбор (CV, boot)
Регуляризация
Отбор признаков на уровне

Модель. Результат Модель Хотим: Улучшить (обобщающую) точность Чем можем управлять: Гиперпараметры Лучший
модели
Вид модели
Веса наблюдений при обучени
...
Целевая функция (потерь)

Случайный лес

Случайный лес

DM Labs

Что мы можем сделать с моделями?

Слайд 12

Модель.

Результат

Модель

Сложность*

Регуляризация

Гиперпараметры
Выбор гиперпараметров тратит много машинного времени.
GBM: #base-learners, lambda, RI, *prune, Loss,
SVM:

Модель. Результат Модель Сложность* Регуляризация Гиперпараметры Выбор гиперпараметров тратит много машинного времени.
kernel, width, cost, nu-SVM, ...
GLMnet: a.ridge, AIC, response family
RF: … ?
Neural Net: … ?

Случайный лес

Случайный лес

DM Labs

Что мы можем сделать с моделями?

Слайд 13

Модель.

Результат

Модель

Сложность*

Регуляризация

Гиперпараметры
Где мы еще могли накосячить?

Случайный лес

Случайный лес

DM Labs

Что еще могло пойти не

Модель. Результат Модель Сложность* Регуляризация Гиперпараметры Где мы еще могли накосячить? Случайный
так?

Слайд 14

Модель.

Результат

Модель

Сложность*

Регуляризация

Гиперпараметры
Где мы еще могли накосячить?

Big Data

Machine Learning

Случайный лес

Случайный лес

DM Labs

Что еще могло

Модель. Результат Модель Сложность* Регуляризация Гиперпараметры Где мы еще могли накосячить? Big
пойти не так?

Слайд 15

Модель.

Результат
Оно вообще не посчиталось.
Иногда – феерично.

Big Data

Machine Learning

Случайный лес

Случайный лес

DM Labs

Что

Модель. Результат Оно вообще не посчиталось. Иногда – феерично. Big Data Machine
еще могло пойти не так?

Слайд 16

Обработка данных.
Тесно связана с моделью.

Результат

Обработка
данных

Случайный лес

Случайный лес

DM Labs

Обработка данных

Обработка данных. Тесно связана с моделью. Результат Обработка данных Случайный лес Случайный

Слайд 17

Обработка данных.

Результат

Обработка
данных

Хотим:
Заставить что-то работать ☹
Уменьшить количество переменных\данных
Увеличить скорость вычисления\обучения (!=)

Случайный лес

Случайный лес

DM

Обработка данных. Результат Обработка данных Хотим: Заставить что-то работать ☹ Уменьшить количество
Labs

Обработка данных

Слайд 18

Обработка данных.

Результат

Обработка
данных

Хотим:
Заставить что-то работать ☹
Уменьшить количество переменных\данных
Увеличить скорость вычисления\обучения (!=)

Чем можем управлять:
Убрать

Обработка данных. Результат Обработка данных Хотим: Заставить что-то работать ☹ Уменьшить количество
выбросы
Сделать подвыборку
На уровне переменных:
Сырые переменные
Проекции (PCA, ICA, RCA, deep*)
Построенные признаки (кластера)

Случайный лес

Случайный лес

DM Labs

Возможности обработки данных

Слайд 19

Обработка данных.
В подвыборки можно вкладывать смысл: 5% юзеров, записей, уникальных юзеров, последних записей...
Feature

Обработка данных. В подвыборки можно вкладывать смысл: 5% юзеров, записей, уникальных юзеров,
learning – основа deep learning. Unsupervised, обычно отдельно: http://web.eecs.umich.edu/~honglak/nipsdlufl10-AnalysisSingleLayerUnsupervisedFeatureLearning.pdf

Результат

Обработка

Выбросы

Подвыборка

Feature Learning

Случайный лес

Случайный лес

DM Labs

Обработка данных. Feature Learning

Слайд 20

Обработка данных.
Что-то еще?

Результат

Обработка

Выбросы

Подвыборка

Feature Learning

Случайный лес

Случайный лес

DM Labs

Что еще могло пойти не так?

Обработка данных. Что-то еще? Результат Обработка Выбросы Подвыборка Feature Learning Случайный лес

Слайд 21

Обработка данных.
Что если все еще не взлетает.

Результат

Обработка

Выбросы

Подвыборка

Feature Learning

Случайный лес

Случайный лес

DM Labs

Что еще

Обработка данных. Что если все еще не взлетает. Результат Обработка Выбросы Подвыборка
могло пойти не так?

Слайд 22

Гипотеза о задаче.
Самое сложное.
Понять что вообще происходит. Неправильные фичи могут ни

Гипотеза о задаче. Самое сложное. Понять что вообще происходит. Неправильные фичи могут
к чему не привести.

Результат

Гипотезы о задаче
Feature engineering

Случайный лес

Случайный лес

DM Labs

«Спросить у эксперта»

Слайд 23

Гипотеза о задаче.

Результат

Гипотезы о задаче
Feature engineering

Есть:
Мы перепробовали кучу моделей и кучу

Гипотеза о задаче. Результат Гипотезы о задаче Feature engineering Есть: Мы перепробовали
гипотез.

Чем можем управлять:
Достать еще данных
Feature engineering
Посмотреть что делали другие:
Статьи
Продукты, PR компаний

Случайный лес

Случайный лес

DM Labs

Гипотезы о задаче

Слайд 24

Гипотеза о задаче.

Результат

Гипотезы о задаче
Feature engineering

Пример:
Изображения: сверточные признаки, Haar-признаки
Временные ряды: fft

Гипотеза о задаче. Результат Гипотезы о задаче Feature engineering Пример: Изображения: сверточные
разложения, моменты с лагом, MA
Пользователи: признаки из графа(betweenness, degree, centrality, page rank), гео-специфика
...

Случайный лес

Случайный лес

DM Labs

Гипотезы о задаче

Слайд 25

Kaggle.
Как организовать команду?

Результат

Гипотезы о задаче
Feature engineering

Случайный лес

Случайный лес

DM Labs

Kaggle

Kaggle. Как организовать команду? Результат Гипотезы о задаче Feature engineering Случайный лес

Слайд 26

Kaggle.
Как организовать команду?

Результат

Гипотезы о задаче
Feature engineering

Случайный лес

Случайный лес

DM Labs

Kaggle

Kaggle. Как организовать команду? Результат Гипотезы о задаче Feature engineering Случайный лес

Слайд 27

Kaggle.
Техник: 1, 5 данные должны быть всегда доступны, сабмит всегда делался
Шпион: 2, 3,

Kaggle. Техник: 1, 5 данные должны быть всегда доступны, сабмит всегда делался
идеи про 4 изучает литературу, статьи, форумы. Генерирует идеи
Спецназ: 3, 4 заняты основной работой, не парятся об 1, 2, 5 !!!
Капитан: 1, 2, 3, 4, 5 координирует работу всех участников, следит за всем сразу

Результат

Гипотезы о задаче
Feature engineering

1 2 3 4 5

Случайный лес

Случайный лес

DM Labs

Kaggle

Слайд 28

Kaggle.
Техник: 1, 5 …
Шпион: 2, 3, идеи про 4 …
Спецназ: 3, 4

Kaggle. Техник: 1, 5 … Шпион: 2, 3, идеи про 4 …

Капитан: 1, 2, 3, 4, 5 …

Результат

Гипотезы о задаче
Feature engineering

1 2 3 4 5

Случайный лес

Случайный лес

DM Labs

Kaggle

Слайд 29

Как вообще решаются задачи.
Где здесь результаты сообществ?
Machine Learning
Data Mining
Специфичных областей (видео, биология,

Как вообще решаются задачи. Где здесь результаты сообществ? Machine Learning Data Mining
поиск, ... )

Результат

Гипотезы о задаче
Feature engineering

DM Labs

Как вообще решают задачи?

Слайд 30

Как вообще решаются задачи.
Где здесь результаты сообществ?
Machine Learning
Data Mining
Специфичных областей (видео, биология,

Как вообще решаются задачи. Где здесь результаты сообществ? Machine Learning Data Mining
поиск, ... )

Результат

Гипотезы о задаче
Feature engineering

ML

Domain

Data Miner’ами себя зовут вообще все. Даже те кто выложил данные...

DM Labs

Как вообще решают задачи?

Слайд 31

Summary

...

DM Labs

Summary

Summary ... DM Labs Summary
Имя файла: Решении-DM/ML-задач.pptx
Количество просмотров: 110
Количество скачиваний: 0