Машинное обучение. День 2. Классификация

Содержание

Слайд 2

ПЛАН

День 2. Классификация.

ОСНОВЫ
10 МИН

Формальная постановка задачи ML. Основные понятия и проблемы.

ПЛАН РЕШЕНИЯ

ПЛАН День 2. Классификация. ОСНОВЫ 10 МИН Формальная постановка задачи ML. Основные

ML-ЗАДАЧ 5 МИН

Как организован процесс решения ML-задачи. В первом приближении.

МЕТОДЫ
15 МИН

Методы классификации: линейные методы, решающие деревья.

ПРАКТИКА
10 МИН

Решим 1 задачу по плану методами пакета python -- sklearn.

01

02

03

04

Слайд 3

01

ОСНОВЫ
10 МИН

X – множество объектов / features
Y – целевое значение /

01 ОСНОВЫ 10 МИН X – множество объектов / features Y –
target
f – решающая функция или алгоритм ML
f ( X ) = Y

Постановка задачи и признаки

X =

Y =

Типы признаков:

количественные

категориальные

Кодирование категориальных признаков:

OneHotEncoding

LabelEncoding

?

?

Слайд 4

01

ОСНОВЫ
10 МИН

Выборки и метрики

Этапы:

обучение (train)

тестирование (test)

Разделение данных:

обучение (train) – 80%

тестирование (test)

01 ОСНОВЫ 10 МИН Выборки и метрики Этапы: обучение (train) тестирование (test)
– 20%

Метрика

Метрика – это число.
Это показатель того, насколько хорошо работает наш алгоритм и какая у него обобщающая способность.
Метрика считается только на тестовой выборке

Accuracy

Метрика доли верно угаданных ответов (accuracy).

 

Accuracy =

= 0.6

Слайд 5

02

МЕТОДЫ
15 МИН

Типы алгоритмов классификации*

Линейные методы

Деревья

 

SGD, SVM, Logistic regression, etc.

Decision tree classifier,

02 МЕТОДЫ 15 МИН Типы алгоритмов классификации* Линейные методы Деревья SGD, SVM,
Decision tree regressor, Random Forest, etc.

*существуют и другие типы, но мы остановимся только на этих двух

Слайд 6

02

МЕТОДЫ
15 МИН

Линейные методы

 

 

 

 

X

w

Y

02 МЕТОДЫ 15 МИН Линейные методы X w Y

Слайд 7

02

МЕТОДЫ
15 МИН

Линейные методы

Решение задачи – поиск вектора весов.
Алгоритм решения – метод

02 МЕТОДЫ 15 МИН Линейные методы Решение задачи – поиск вектора весов.
градиентного спуска.

Loss

Loss (loss-function, функция потерь) может задаваться по-разному.
Все линейные методы устроены одинаковы.
У них только отличается функция потерь (loss).

Популярные линейные методы:
SVM – метод опорных вектором
Logistic Regression – логистическая регрессия
AdaBoost – метод адаптивного бустинга

Слайд 8

02

МЕТОДЫ
15 МИН

Деревья

 

 

Найти:
f – ?

Бинарное решающее дерево

Ациклический граф
Если вершина соединена с 2

02 МЕТОДЫ 15 МИН Деревья Найти: f – ? Бинарное решающее дерево
дочерними – внутренняя вершина
Если нет – листовая (терминальная) вершина
На внутренних вершинах сидят предикаты

Листовые
вершины

Внутренние
вершины

Предикат

Слайд 9

02

МЕТОДЫ
15 МИН

Деревья

Критерий разбиения (ветвления):

GINI

ENTROPY

Показывает, сколько есть пар объектов одного и того

02 МЕТОДЫ 15 МИН Деревья Критерий разбиения (ветвления): GINI ENTROPY Показывает, сколько
же класса, которые вместе идут в левую либо в правую дочернюю вершину.

Критерий разбиения из теории информации. Суть примерно такая же как у gini.

 

F1 == 1

F2 == 1

TRUE

FALSE

TRUE

FALSE

1

0

0

 

И это все?

TreeGrowth
Overfitting
Prunning
NonBinary
MaxDepth
MinSamplesLeaf
RandomForest

Слайд 10

step 1

step 2

step 3

step 4

step 5

ПЛАН РЕШЕНИЯ
ML-ЗАДАЧ 5 МИН

03

Первое приближение

Меняем?

step 1 step 2 step 3 step 4 step 5 ПЛАН РЕШЕНИЯ

Слайд 11

Откройте учебный Notebook из архива с материалами к занятию.

Первая ML-задача.

Практика 2

04

ПРАКТИКА

Откройте учебный Notebook из архива с материалами к занятию. Первая ML-задача. Практика

10 МИН

Слайд 12

Метрики классификации

 

 

Метрики классификации

Слайд 13

Полнота (recall)

Матрица ошибок (Confusion matrix):

 

 

На сколько хорошо алгоритм определяет класс №1
Контролируем ошибку

Полнота (recall) Матрица ошибок (Confusion matrix): На сколько хорошо алгоритм определяет класс
2 рода

Когда использовать?

Когда нужно минимизировать ложные пропуски.

 

 

Слайд 14

Точность (precision)

Матрица ошибок (Confusion matrix):

 

Доля объектов, названных классом №1
Контролируем ошибку 1 рода

 

Когда

Точность (precision) Матрица ошибок (Confusion matrix): Доля объектов, названных классом №1 Контролируем
использовать?

Когда нужно минимизировать ложные попадания.

 

 

Имя файла: Машинное-обучение.-День-2.-Классификация.pptx
Количество просмотров: 72
Количество скачиваний: 1