Машинное обучение. День 3. Регрессия

Содержание

Слайд 2

ПЛАН

День 3. Регрессия.

ОСНОВЫ
10 МИН

Дополнительные понятия и проблемы. Масштабирование признаков, метрики регрессии.

ПЛАН РЕШЕНИЯ

ПЛАН День 3. Регрессия. ОСНОВЫ 10 МИН Дополнительные понятия и проблемы. Масштабирование

ML-ЗАДАЧ 5 МИН

Процесс решения ML-задачи: второе приближение.

МЕТОДЫ
15 МИН

Методы регрессии: линейные методы, регуляризация.

ПРАКТИКА
10 МИН

Решим задачу регрессии.

01

02

03

04

Слайд 3

01

ОСНОВЫ
10 МИН

X – множество объектов / features
Y – целевое значение /

01 ОСНОВЫ 10 МИН X – множество объектов / features Y –
target
f – решающая функция или алгоритм ML
f ( X ) = Y

Постановка задачи и scaling

X =

Y =

Масштабирование признаков:

стандартизация

нормализация

 

 

 

 

Слайд 4

01

ОСНОВЫ
10 МИН

Метрики

Метрика

Метрика – это число.
Это показатель того, насколько хорошо работает наш

01 ОСНОВЫ 10 МИН Метрики Метрика Метрика – это число. Это показатель
алгоритм и какая
у него обобщающая способность.
Метрика считается только на тестовой выборке.

Средняя абсолютная ошибка | MAE

Mean Absolut Error

 

Среднеквадратичная ошибка | MSE

Mean Squared Error

 

Средняя абсолютная ошибка в % | MAPE

Mean Absolut Percentage Error

 

Максимальная ошибка | MaxE

Max Error

 

Максимальная ошибка в % | MaxPE

Max Percentage Error

 

Слайд 5

01

ОСНОВЫ
10 МИН

Метрики

Max E = 5.22

Max PE = 1.41

MAE = 2.59

Max Error

Max

01 ОСНОВЫ 10 МИН Метрики Max E = 5.22 Max PE =
PE

MAPE = 0.45

MSE = 9.3

Слайд 6

01

ОСНОВЫ
10 МИН

Переобучение

Это ситуация, когда модель теряет обобщающую способность и решает конкретную

01 ОСНОВЫ 10 МИН Переобучение Это ситуация, когда модель теряет обобщающую способность
задачу, «подстраиваясь» под обучающую выборку.

Слайд 7

02

МЕТОДЫ
15 МИН

Типы алгоритмов регрессии*

Линейные методы

Нелинейные

 

Least Squares, Ridge regression, LASSO, etc.

Decision tree

02 МЕТОДЫ 15 МИН Типы алгоритмов регрессии* Линейные методы Нелинейные Least Squares,
regressor, neural networks, etc.

*существуют и другие типы, но мы остановимся только на этих двух

Слайд 8

02

МЕТОДЫ
15 МИН

Линейные методы

 

 

 

 

X

w

Y

02 МЕТОДЫ 15 МИН Линейные методы X w Y

Слайд 9

02

МЕТОДЫ
15 МИН

Решение задачи

Решение задачи – поиск вектора весов.
Алгоритмы решения: SVD, итеративные,

02 МЕТОДЫ 15 МИН Решение задачи Решение задачи – поиск вектора весов.
точные.

 

Точное решение

 

 

 

 

SVD

Singular Value Decomposition (сингулярное разложение).

 

 

Где ещё нужно SVD?
В областях от медицины до энергетики.
В задачах шумоподавления, сжатия, упрощения вычислений и др.

Слайд 10

02

МЕТОДЫ
15 МИН

Проблемы

Переобучение

Мультиколлинеарность

 

Линейно-зависимые строки

Линейно-зависимые столбцы

В чем это выражается?

Падение качества

Дисбаланс весов W

MAPE

MSE

 

02 МЕТОДЫ 15 МИН Проблемы Переобучение Мультиколлинеарность Линейно-зависимые строки Линейно-зависимые столбцы В

Слайд 11

02

МЕТОДЫ
15 МИН

Регуляризация

Регуляризация – метод упрощения модели, борьба с переобучением, мультиколлинеаностью и

02 МЕТОДЫ 15 МИН Регуляризация Регуляризация – метод упрощения модели, борьба с
другими проблемами.

L1

L2

Ridge (гребневая) regression,
weight decay (сокращение весов),
регуляризация Тихонова.

LASSO regression,
обнуление весов.

 

 

нулевые веса

отсутствуют большие по модулю веса

 

 

 

 

Слайд 12

step 1

step 2

step 4

step 5

step 6

ПЛАН РЕШЕНИЯ
ML-ЗАДАЧ 5 МИН

03

Второе приближение

Меняем?

new step

step 1 step 2 step 4 step 5 step 6 ПЛАН РЕШЕНИЯ