Машинное обучение

Содержание

Слайд 2

Типы машинного обучения

Индуктивное (по прецедентам) и дедуктивное. Некоторые методы индуктивного обучения были

Типы машинного обучения Индуктивное (по прецедентам) и дедуктивное. Некоторые методы индуктивного обучения
разработаны в качестве альтернативы классическим статистическим подходам. Индуктивное обучение основано на выявлении эмпирических закономерностей, дедуктивное — на формализации знаний экспертов и их использовании в качестве базы знаний. Первый тип характеризуется большим количеством данных и отсутствием или ненадобностью прошлого опыта. Второй тип обучения отличается малым массивом данных или выбором в пользу малых наборов данных, а также глубокими знаниями изучаемого вопроса.

Слайд 3

Статистическая теория обучения

Статистическая теория обучения — это модель для обучения машин

Статистическая теория обучения Статистическая теория обучения — это модель для обучения машин
на основе статистики и функционального анализа. Статистическая теория обучения имеет дело с задачами нахождения функции предсказывания, основанной на данных..

Слайд 4

Статистическая теория обучения

Статистическая теория обучения

Слайд 6

E

Разброс - характеризует разнообразие алгоритмов (из-за случайности обучающей выборки, в том числе

E Разброс - характеризует разнообразие алгоритмов (из-за случайности обучающей выборки, в том
шума, и стохастической природы настройки)
Смещение – способность модели алгоритмов настраиваться на целевую зависимость

Слайд 7

Смещение, разброс, переобучение и недообучение.

Смещение, разброс, переобучение и недообучение.

Слайд 8

Смещение, разброс, переобучение и недообучение.

Смещение, разброс, переобучение и недообучение.

Слайд 9

Смещение, разброс, переобучение и недообучение.

Смещение, разброс, переобучение и недообучение.

Слайд 10

Статистический вывод

Статистический вывод

Слайд 11

Параметрические и непараметрические методы

Параметрические и непараметрические методы

Слайд 12

Параметрические и непараметрические методы

Параметрические и непараметрические методы

Слайд 13

Параметрические и непараметрические методы

Параметрические и непараметрические методы

Слайд 14

Параметрические и непараметрические методы

Параметрические и непараметрические методы

Слайд 15

Компромисс между смещением и дисперсией

Компромисс между смещением и дисперсией

Слайд 16

Компромисс между смещением и дисперсией

Компромисс между смещением и дисперсией

Слайд 17

Компромисс между смещением и дисперсией

Компромисс между смещением и дисперсией

Слайд 18

Истинная функция существенно отличается от линейной

Истинная функция существенно отличается от линейной

Слайд 19

Истинная функция существенно отличается от линейной

Истинная функция существенно отличается от линейной

Слайд 20

Степени обученности модели

Степени обученности модели

Слайд 21

Примеры недообученных и переобученных моделей

Примеры недообученных и переобученных моделей

Слайд 28

Методология CrispDM

Методология CrispDM

Слайд 31

Смещение, разброс, переобучение и недообучение.

Переобучение (overfitting) – явление, когда ошибка на

Смещение, разброс, переобучение и недообучение. Переобучение (overfitting) – явление, когда ошибка на
тестовой выборке заметно больше ошибки на обучающей. Это главная проблема машинного обучения: если бы такого эффекта не было (ошибка на тесте примерно совпадала с ошибкой на обучении), то всё обучение сводилось бы к минимизации ошибки на тесте (т.н. эмпирическому риску)
Недообучение (underfitting) – явление, когда ошибка на обучающей выборке достаточно большая, часто говорят «не удаётся настроиться на выборку». Такой странный термин объясняется тем, что недообучение при настройке алгоритмов итерационными методами (например, нейронных сетей методом обратного распространения) можно наблюдать, когда сделано слишком маленькое число итераций, т.е. «не успели обучиться»

Слайд 32

Смещение, разброс, переобучение и недообучение.

Сложность (complexity) модели алгоритмов (допускает множество формализаций) –

Смещение, разброс, переобучение и недообучение. Сложность (complexity) модели алгоритмов (допускает множество формализаций)
оценивает, насколько разнообразно семейство алгоритмов в модели с точки зрения их функциональных свойств (например, способности настраиваться на выборки). Повышение сложности (т.е. использование более сложных моделей) решает проблему недообучения и вызывает переобучение.

Пример переобучения.

 y = sin(4x) + шум

Слайд 33

Смещение, разброс, переобучение и недообучение.

Пример переобучения.

 зашумлённой пороговой зависимости

Видно, что с увеличением степени

Смещение, разброс, переобучение и недообучение. Пример переобучения. зашумлённой пороговой зависимости Видно, что
ошибка на обучающей выборке падает, а на тестовой (мы взяли очень мелкую сетку отрезка [0, 1]) – сначала падает, потом возрастает.

Слайд 34

Измерение качества модели через среднеквадратическое отклонение.

Измерение качества модели через среднеквадратическое отклонение.

Слайд 35

Список литературы

1. Джеймс Г., Уиттон Д., Хасти Т., Тибширани Р . Введение

Список литературы 1. Джеймс Г., Уиттон Д., Хасти Т., Тибширани Р .
в статистическое обучение с примерами на языке R
2. https://dyakonov.org/2018/04/25/%D1%81%D0%BC%D0%B5%D1%89%D0%B5%D0%BD%D0%B8%D0%B5-bias-%D0%B8-%D1%80%D0%B0%D0%B7%D0%B1%D1%80%D0%BE%D1%81-variance-%D0%BC%D0%BE%D0%B4%D0%B5%D0%BB%D0%B8-%D0%B0%D0%BB%D0%B3%D0%BE%D1%80%D0%B8%D1%82/
3. Грас Data Science. Наука о данных с нуля, 2017 г.
4. Введение в машинное обучение. https://www.coursera.org/learn/vvedenie-mashinnoe-obuchenie/lecture/CLOS0/formal-naia-postanovka-zadachi-mashinnogho-obuchieniia