Машинное обучение: оценка качества

Содержание

Слайд 2

Задача

Хотим понять хорошо ли будет работать решающая функция на практике.

Санкт-Петербург, 2018

Н.

Задача Хотим понять хорошо ли будет работать решающая функция на практике. Санкт-Петербург,
Поваров, И. Куралёнок

“If you can’t measure it, you can’t improve it”
Lord Kelvin

“Гораздо легче что-то измерить, чем понять, что именно вы измеряете.”
Джон Уильям Салливан

Слайд 3

График целевой метрики

Санкт-Петербург, 2018

Н. Поваров, И. Куралёнок

График целевой метрики Санкт-Петербург, 2018 Н. Поваров, И. Куралёнок

Слайд 4

График целевой метрики

Санкт-Петербург, 2018

Н. Поваров, И. Куралёнок

График целевой метрики Санкт-Петербург, 2018 Н. Поваров, И. Куралёнок

Слайд 5

Вспомним о чём ML

 

Н. Поваров, И. Куралёнок

Санкт-Петербург, 2018

Вспомним о чём ML Н. Поваров, И. Куралёнок Санкт-Петербург, 2018

Слайд 6

Грубая классфикация способов оценки

Black Box методы
Online
Offline
Glass Box методы

Грубая классфикация способов оценки Black Box методы Online Offline Glass Box методы
VC-оценки
PAC-Bayes bounds
Оценки по Воронцову

Санкт-Петербург, 2018

Н. Поваров, И. Куралёнок

Слайд 7

Грубая классфикация способов оценки

Black Box методы
Online
Offline
Glass Box методы

Грубая классфикация способов оценки Black Box методы Online Offline Glass Box методы
VC-оценки
PAC-Bayes bounds
Оценки по Воронцову

Санкт-Петербург, 2018

Н. Поваров, И. Куралёнок

Слайд 8

Online

Наблюдение
Эксперимент

Санкт-Петербург, 2018

Н. Поваров, И. Куралёнок

Online Наблюдение Эксперимент Санкт-Петербург, 2018 Н. Поваров, И. Куралёнок

Слайд 9

Online

Наблюдение
Эксперимент

Санкт-Петербург, 2018

Н. Поваров, И. Куралёнок

Online Наблюдение Эксперимент Санкт-Петербург, 2018 Н. Поваров, И. Куралёнок

Слайд 10

Online

Наблюдение
Эксперимент

Санкт-Петербург, 2018

Н. Поваров, И. Куралёнок

Online Наблюдение Эксперимент Санкт-Петербург, 2018 Н. Поваров, И. Куралёнок

Слайд 11

Online

+ В условиях эксплуатации
+ В положительные результаты эксперимента обычно верят
+ Легко хвастаться

Online + В условиях эксплуатации + В положительные результаты эксперимента обычно верят
результатом
- Вряд ли цель эксплуатации
- Можно навредить пользователям

Санкт-Петербург, 2018

Н. Поваров, И. Куралёнок

Слайд 12

Offline

+ Нельзя навредить пользователям
+ Обычно можно проводить сильно больше экспериментов
- Обычно нужны

Offline + Нельзя навредить пользователям + Обычно можно проводить сильно больше экспериментов
данные (примеры)
- Сложно «хвастаться» результатом

Санкт-Петербург, 2018

Н. Поваров, И. Куралёнок

Слайд 13

Оценка качества как система принятия решений

Санкт-Петербург, 2018

Н. Поваров, И. Куралёнок

Nature

СПР

Оценка качества как система принятия решений Санкт-Петербург, 2018 Н. Поваров, И. Куралёнок Nature СПР

Слайд 14

Offline

Санкт-Петербург, 2018

Н. Поваров, И. Куралёнок

Offline Санкт-Петербург, 2018 Н. Поваров, И. Куралёнок

Слайд 15

Offline на данных

Hold Out
Cross-fold Validation
Bootstrap

Санкт-Петербург, 2018

Н. Поваров, И. Куралёнок

Offline на данных Hold Out Cross-fold Validation Bootstrap Санкт-Петербург, 2018 Н. Поваров, И. Куралёнок

Слайд 16

Hold-out

Санкт-Петербург, 2018

Н. Поваров, И. Куралёнок

 

Hold-out Санкт-Петербург, 2018 Н. Поваров, И. Куралёнок

Слайд 17

Cross-fold Validation

Санкт-Петербург, 2018

Н. Поваров, И. Куралёнок

 

Cross-fold Validation Санкт-Петербург, 2018 Н. Поваров, И. Куралёнок

Слайд 18

Cross-fold Validation

Санкт-Петербург, 2018

Н. Поваров, И. Куралёнок

Cross-fold Validation Санкт-Петербург, 2018 Н. Поваров, И. Куралёнок

Слайд 19

Cross-fold Validation

Санкт-Петербург, 2018

Н. Поваров, И. Куралёнок

 

Cross-fold Validation Санкт-Петербург, 2018 Н. Поваров, И. Куралёнок

Слайд 20

Повторные выборки

Санкт-Петербург, 2018

Н. Поваров, И. Куралёнок

 

Повторные выборки Санкт-Петербург, 2018 Н. Поваров, И. Куралёнок

Слайд 21

Где в offline система принятия решений

Санкт-Петербург, 2018

Н. Поваров, И. Куралёнок

Где в offline система принятия решений Санкт-Петербург, 2018 Н. Поваров, И. Куралёнок

Слайд 22

Где в offline система принятия решений

Санкт-Петербург, 2018

Н. Поваров, И. Куралёнок

В случае hold-out

Где в offline система принятия решений Санкт-Петербург, 2018 Н. Поваров, И. Куралёнок
— «много» наблюдений в T.
В случае cross-fold — большое k.
В случае повторных выборок — можно сделать много раз.

Слайд 23

Как выбрать статтест?

Санкт-Петербург, 2018

Н. Поваров, И. Куралёнок

Как выбрать статтест? Санкт-Петербург, 2018 Н. Поваров, И. Куралёнок

Слайд 25

Классический подход что надо помнить

Санкт-Петербург, 2018

Н. Поваров, И. Куралёнок

Направленность
Шкала измерений

Классический подход что надо помнить Санкт-Петербург, 2018 Н. Поваров, И. Куралёнок Направленность
(отношений, порядка, номинальная, бинарная)
Связанные/независимые наблюдения
Параметрические/непараметрические
...

Слайд 26

Есть метод проще!

Санкт-Петербург, 2018

Н. Поваров, И. Куралёнок

Есть метод проще! Санкт-Петербург, 2018 Н. Поваров, И. Куралёнок

Слайд 27

Правильный подход на примере hold-out

Санкт-Петербург, 2018

Н. Поваров, И. Куралёнок

A bootstrap sample

Правильный подход на примере hold-out Санкт-Петербург, 2018 Н. Поваров, И. Куралёнок A
is a random sample taken with replacement from the original sample, of the same size as the original sample.
A bootstrap statistic is the statistic computed on bootstrap sample.
A bootstrap distribution is the distribution of many bootstrap statistic.

Слайд 28

Правильный подход на примере hold-out

Санкт-Петербург, 2018

Н. Поваров, И. Куралёнок

Правильный подход на примере hold-out Санкт-Петербург, 2018 Н. Поваров, И. Куралёнок

Слайд 29

Common knowledge

Санкт-Петербург, 2018

Н. Поваров, И. Куралёнок

Model Selection

Flexibility

Bias-Variance trade-off

Evaluation

Выбор сложности модели

Обобщающая способность алгоритма

Common knowledge Санкт-Петербург, 2018 Н. Поваров, И. Куралёнок Model Selection Flexibility Bias-Variance

Слайд 30

На примере

Санкт-Петербург, 2018

Н. Поваров, И. Куралёнок

На примере Санкт-Петербург, 2018 Н. Поваров, И. Куралёнок

Слайд 31

На примере

Санкт-Петербург, 2018

Н. Поваров, И. Куралёнок

На примере Санкт-Петербург, 2018 Н. Поваров, И. Куралёнок

Слайд 32

На примере

Санкт-Петербург, 2018

Н. Поваров, И. Куралёнок

На примере Санкт-Петербург, 2018 Н. Поваров, И. Куралёнок

Слайд 33

Формальная картинка же

Санкт-Петербург, 2018

Н. Поваров, И. Куралёнок

Формальная картинка же Санкт-Петербург, 2018 Н. Поваров, И. Куралёнок

Слайд 34

Сложность (гибкость) модели

Чем больше в модели параметров, тем больше информации она может

Сложность (гибкость) модели Чем больше в модели параметров, тем больше информации она
нести.
— Ваш К. О.

Санкт-Петербург, 2018

Н. Поваров, И. Куралёнок

Какая бывает информация в параметрах:
про генеральную совокупность;
про выборку;
про random seed.

Слайд 35

Определение I

Переобучение, переподгонка (overfitting, high variance) — нежелательное явление, возникающее при решении

Определение I Переобучение, переподгонка (overfitting, high variance) — нежелательное явление, возникающее при
задач обучения по прецедентам, когда вероятность ошибки обученного алгоритма на объектах тестовой выборки оказывается существенно выше, чем средняя ошибка на обучающей выборке.

Санкт-Петербург, 2018

Н. Поваров, И. Куралёнок

Слайд 36

Определение II

Недообучение (underfitting, high bias) — нежелательное явление, возникающее при решении задач

Определение II Недообучение (underfitting, high bias) — нежелательное явление, возникающее при решении
обучения по прецедентам, когда алгоритм обучения не обеспечивает достаточно малой величины средней ошибки на обучающей выборке.

Санкт-Петербург, 2018

Н. Поваров, И. Куралёнок

Слайд 37

Зачем знать

Увеличение числа примеров для обучения исправляет high variance
Меньшее число

Зачем знать Увеличение числа примеров для обучения исправляет high variance Меньшее число
факторов исправляет high variance
Уменьшение сложности модели исправляет high variance
Увеличение числа факторов исправляет high bias
Увеличение сложности модели исправляет high bias

Санкт-Петербург, 2018

Н. Поваров, И. Куралёнок

Слайд 38

Как понять где мы находимся

Санкт-Петербург, 2018

Н. Поваров, И. Куралёнок

Как понять где мы находимся Санкт-Петербург, 2018 Н. Поваров, И. Куралёнок

Слайд 39

Как понять где мы находимся

Санкт-Петербург, 2018

Н. Поваров, И. Куралёнок

Underfit

Overfit

Как понять где мы находимся Санкт-Петербург, 2018 Н. Поваров, И. Куралёнок Underfit Overfit

Слайд 40

Как понять где мы находимся

Санкт-Петербург, 2018

Н. Поваров, И. Куралёнок

Как понять где мы находимся Санкт-Петербург, 2018 Н. Поваров, И. Куралёнок

Слайд 41

Как можно переобучиться

Линейные модели: степень полинома
Деревья решений: глубина дерева
Нейронные сети: ширина и

Как можно переобучиться Линейные модели: степень полинома Деревья решений: глубина дерева Нейронные
глубина
SVM: Kernel trick
...

Санкт-Петербург, 2018

Н. Поваров, И. Куралёнок

Слайд 42

Итого offline

В академической среде чаще всего это про сложность модели
В

Итого offline В академической среде чаще всего это про сложность модели В
промышленности это про выбор лучшей решающей функции
Смотреть на это надо как на СПР
У нас есть проверка гипотез

Санкт-Петербург, 2018

Н. Поваров, И. Куралёнок

Имя файла: Машинное-обучение:-оценка-качества.pptx
Количество просмотров: 46
Количество скачиваний: 0