Машинное обучение: качество

Февраль 19, 2021

Главная
Разное
Машинное обучение: качество

Содержание

2. Немного «фраз» «Гораздо легче что-то измерить, чем понять, что именно вы измеряете.» — Джон Уильям Салливан
3. Постановка в случае учителя Ожидание хотим считать по всей ген. совокупности Функцию обучаем на X =>
4. Какая нужна выборка Интересно получить выборку, несмещенную (смещенную не более чем …) по результатам процедуры обучения:
5. Как это выглядит на практике?
6. Как это выглядит на практике?
7. Как это выглядит на практике?
8. Виды ошибок обучения
9. Виды ошибок обучения Переобучение, переподгонка (overtraining, overfitting) — нежелательное явление, возникающее при решении задач обучения по
10. Наш первый метод
11. Пример По материалам machinelearning.ru
12. Пример По материалам machinelearning.ru
13. Пример По материалам machinelearning.ru
14. Задача Дано: Найти оптимальные p и a
15. Постановка в случае учителя Ожидание хотим считать по всей ген. совокупности Функцию обучаем на X =>
16. Схема тестирования
17. Overfit on validation
18. Как не оверфитнуться? White box: Выбор решающего семейства при фиксированном объеме данных: VC оценки Оценка вероятности
19. Теория Вапника-Червоненкиса Владимир Наумович Вапник, Алексей Яковлевич Червоненкис Задача минимизации эмпирического риска VC-оценка (классификация):
20. Вероятность переобучения Воронцов Константин Вячеславович (machinelearning.ru, ШАД в Москве) Вводим слабую вероятностную аксиоматику Оцениваем вероятность переобучения:
21. PAC-Bayes bounds Результат алгоритма – распределение над семейством Решающая функция –среднее выборки этого распределения
22. Изменение процедуры подбора Игры с шагом: а давайте не будем точно решать задачку Поменяем Lossь так,
23. Cross-validation Рандомно поделим множество X на несколько кусочков Обучимся на одной части Проверим на оставшихся Повторим
24. Виды cross-validation 2-fold k-fold Random sub-sampling (e.g. bootstrapping) Leave-one-out (LOOCV)
25. Как принять решение по результатам CFV? Wilcoxon signed rank test для проверки на равенство Знак по
26. На чем тестировать? Реальные данные Поиск: РОМИП, TREC, Яндекс.ИМАТ, Yahoo LTRCh Pascal Challenge InnoCentive Искусственные данные
27. ОТСЕБЯТЕНА Машинное Обучение: качество
29. Скачать презентацию

Немного «фраз»
«Гораздо легче что-то измерить, чем понять, что именно вы измеряете.»
— Джон

Уильям Салливан

«If you can't measure it, you can't improve it»
— Lord Kelvin

Постановка в случае учителя
Ожидание хотим считать по всей ген. совокупности
Функцию

обучаем на X
=> Если бы X была репрезентативной то все проще:

Какая нужна выборка
Интересно получить выборку, несмещенную (смещенную не более чем …) по

результатам процедуры обучения:
Найти «хороший» способ генерации выборки при условии процедуры подбора
Наложить ограничения на процедуру подбора
Ограничения на решающую функцию
=> Надо научиться мерять смещенность выборки

Иными словами, репрезентативная выборка представляет собой микрокосм, меньшую по размеру, но точную модель генеральной совокупности, которую она должна отражать.
- Дж. Б. Мангейм, Р. К. Рич

Слайд 5

Как это выглядит на практике?

Слайд 6

Как это выглядит на практике?

Слайд 7

Как это выглядит на практике?

Слайд 8

Виды ошибок обучения

Слайд 9

Виды ошибок обучения
Переобучение, переподгонка (overtraining, overfitting) — нежелательное явление, возникающее при решении

задач обучения по прецедентам, когда вероятность ошибки обученного алгоритма на объектах тестовой выборки оказывается существенно выше, чем средняя ошибка на обучающей выборке.
Недообучение (underfitting)— нежелательное явление, возникающее при решении задач обучения по прецедентам, когда алгоритм обучения не обеспечивает достаточно малой величины средней ошибки на обучающей выборке. Недообучение возникает при использовании недостаточно сложных моделей.
- machinelearning.ru

Слайд 10

Наш первый метод

Слайд 11

Пример
По материалам machinelearning.ru

Слайд 12

Пример
По материалам machinelearning.ru

Слайд 13

Пример
По материалам machinelearning.ru

Слайд 14

Задача
Дано:
Найти оптимальные p и a

Слайд 15

Постановка в случае учителя
Ожидание хотим считать по всей ген. совокупности
Функцию

обучаем на X
=> Если бы X была репрезентативной то все проще:

Слайд 16

Схема тестирования

Слайд 17

Overfit on validation

Слайд 18

Как не оверфитнуться?
White box:
Выбор решающего семейства при фиксированном объеме данных:

VC оценки
Оценка вероятности переобучения (по Воронцову)
PAC-Bayes bounds
Изменение процедуры подбора:
Игры с шагом
Регуляризация
Black box:
Cross-validation

Слайд 19

Теория Вапника-Червоненкиса
Владимир Наумович Вапник, Алексей Яковлевич Червоненкис
Задача минимизации эмпирического риска
VC-оценка (классификация):

Слайд 20

Вероятность переобучения
Воронцов Константин Вячеславович (machinelearning.ru, ШАД в Москве)
Вводим слабую вероятностную аксиоматику
Оцениваем

вероятность переобучения:

Слайд 21

PAC-Bayes bounds
Результат алгоритма – распределение над семейством
Решающая функция –среднее выборки

этого распределения

Слайд 22

Изменение процедуры подбора
Игры с шагом: а давайте не будем точно решать

задачку
Поменяем Lossь так, чтобы более «рискованные» решения получали discount.

Слайд 23

Cross-validation
Рандомно поделим множество X на несколько кусочков
Обучимся на одной части

Проверим на оставшихся
Повторим до ощущения надежности

Слайд 24

Виды cross-validation
2-fold
k-fold
Random sub-sampling (e.g. bootstrapping)
Leave-one-out (LOOCV)

Слайд 25

Как принять решение по результатам CFV?
Wilcoxon signed rank test для проверки

на равенство
Знак по выборочному среднему
Проблемы:
Чем меньше выборка X тем более зависимы результаты
Интересно:
а наблюдаем мы только 1 реализацию.
Слишком оптимистичные решения
Любое практическое исследование должно иметь эти оценки

Слайд 26

На чем тестировать?
Реальные данные
Поиск: РОМИП, TREC, Яндекс.ИМАТ, Yahoo LTRCh
Pascal

Challenge
InnoCentive
Искусственные данные (многомерный XOR)
Задумаем «хитрое» распределение и попробуем его отгадать

Машинное обучение: качество

Содержание

Немного «фраз»«Гораздо легче что-то измерить, чем понять, что именно вы измеряете.»— Джон

Постановка в случае учителя Ожидание хотим считать по всей ген. совокупности Функцию

Какая нужна выборкаИнтересно получить выборку, несмещенную (смещенную не более чем …) по

Как это выглядит на практике?

Как это выглядит на практике?

Как это выглядит на практике?

Виды ошибок обучения

Виды ошибок обученияПереобучение, переподгонка (overtraining, overfitting) — нежелательное явление, возникающее при решении

Наш первый метод

ПримерПо материалам machinelearning.ru

ПримерПо материалам machinelearning.ru

ПримерПо материалам machinelearning.ru

ЗадачаДано: Найти оптимальные p и a

Постановка в случае учителя Ожидание хотим считать по всей ген. совокупности Функцию

Схема тестирования

Overfit on validation

Как не оверфитнуться? White box: Выбор решающего семейства при фиксированном объеме данных:

Теория Вапника-ЧервоненкисаВладимир Наумович Вапник, Алексей Яковлевич Червоненкис Задача минимизации эмпирического рискаVC-оценка (классификация):

Вероятность переобученияВоронцов Константин Вячеславович (machinelearning.ru, ШАД в Москве) Вводим слабую вероятностную аксиоматикуОцениваем

PAC-Bayes bounds Результат алгоритма – распределение над семейством Решающая функция –среднее выборки

Изменение процедуры подбора Игры с шагом: а давайте не будем точно решать

Cross-validation Рандомно поделим множество X на несколько кусочков Обучимся на одной части

Виды cross-validation 2-fold k-fold Random sub-sampling (e.g. bootstrapping) Leave-one-out (LOOCV)

Как принять решение по результатам CFV? Wilcoxon signed rank test для проверки

На чем тестировать? Реальные данные Поиск: РОМИП, TREC, Яндекс.ИМАТ, Yahoo LTRCh Pascal

ОТСЕБЯТЕНАМашинное Обучение: качество

Похожие презентации

Немного «фраз»
«Гораздо легче что-то измерить, чем понять, что именно вы измеряете.»
— Джон

Постановка в случае учителя
Ожидание хотим считать по всей ген. совокупности
Функцию

Какая нужна выборка
Интересно получить выборку, несмещенную (смещенную не более чем …) по

Виды ошибок обучения
Переобучение, переподгонка (overtraining, overfitting) — нежелательное явление, возникающее при решении

Пример
По материалам machinelearning.ru

Пример
По материалам machinelearning.ru

Пример
По материалам machinelearning.ru

Задача
Дано:
Найти оптимальные p и a

Постановка в случае учителя
Ожидание хотим считать по всей ген. совокупности
Функцию

Как не оверфитнуться?
White box:
Выбор решающего семейства при фиксированном объеме данных:

Теория Вапника-Червоненкиса
Владимир Наумович Вапник, Алексей Яковлевич Червоненкис
Задача минимизации эмпирического риска
VC-оценка (классификация):

Вероятность переобучения
Воронцов Константин Вячеславович (machinelearning.ru, ШАД в Москве)
Вводим слабую вероятностную аксиоматику
Оцениваем

PAC-Bayes bounds
Результат алгоритма – распределение над семейством
Решающая функция –среднее выборки

Изменение процедуры подбора
Игры с шагом: а давайте не будем точно решать

Cross-validation
Рандомно поделим множество X на несколько кусочков
Обучимся на одной части

Виды cross-validation
2-fold
k-fold
Random sub-sampling (e.g. bootstrapping)
Leave-one-out (LOOCV)

Как принять решение по результатам CFV?
Wilcoxon signed rank test для проверки

На чем тестировать?
Реальные данные
Поиск: РОМИП, TREC, Яндекс.ИМАТ, Yahoo LTRCh
Pascal

ОТСЕБЯТЕНА
Машинное Обучение: качество