Машинное обучение. Линейная регрессия и переобучение. Алгоритм применения ML к задачам

Март 4, 2021

Главная
Информатика
Машинное обучение. Линейная регрессия и переобучение. Алгоритм применения ML к задачам

Содержание

2. План курса Машинное обучение (3 занятия) Нейронные сети (2 занятия) Сверточные нейронные сети (2 занятия) Детекция
3. План лекции Типы задач машинного обучения Обучение с учителем KNN Обучение моделей Линейная регрессия и переобучение
4. Типы задач машинного обучения
6. Unsupervised learning Кластеризация. Применение на практике: разделение аудитории на группы с общими интересами для эффективной рекламы.
7. Reinforcement learning Reinforcement Learning основан на том, что алгоритм за каждое свое действие получает награду или
8. Обучение с учителем
9. Обучение с учителем (supervised learning) X - множество объектов Y - множество ответов истинная зависимость. Обучающий
10. Обучение с учителем (supervised learning) Типы признаков (features): Числовые (Numerical) Категориальные (Categorical) Порядковые (Ordinal) Типы задач:
11. Примеры задач (Ирисы Фишера) Какая это задача? Какие есть признаки?
12. Примеры задач (Ирисы Фишера) Какая это задача? . Задача классификации. Какие есть признаки? . Есть только
13. Примеры задач (Цена дома) Какая это задача? Какие есть признаки? Нужно предсказать стоимость дома. Есть обучающий
14. Примеры задач (Цена дома) Какая это задача? . Задача регрессии. Какие есть признаки? Числовые, порядковые, категориальные.
15. Примеры задач (Поисковая выдача) Какая это задача? Какие есть признаки? Получив запрос от пользователя нужно найти
16. Примеры задач (Поисковая выдача) Какая это задача? Задача ранжирования. Какие есть признаки? Данные намного сложнее и
17. KNN
18. K-Nearest Neighbors Images from https://www.unite.ai/what-is-k-nearest-neighbors Решение задачи классификации: Обучение: Просто запоминаем обучающую выборку. Предсказание: Получаем точку
19. Curse of Dimensionality В KNN мы делаем очень слабое предположение: близкие точки будут иметь близкие ответы.
20. Feature Scale Если в качестве метрики взять обычное расстояние между векторами, то возникает проблема масштаба признаков.
21. Обучение моделей
22. Обучение с учителем (supervised learning) Наша задача - найти функцию хорошо приближающую реальную зависимость . Назовем
23. Пример семейства моделей (функции порога) Задача: определить, можно ли ребенку пройти на аттракцион? Причем мы знаем
24. Обучение с учителем (supervised learning) Обучение -- процесс выбора параметра , которому соответствует наиболее подходящее нам
25. Обучение с учителем (supervised learning) Как обучать алгоритм (подбирать оптимальные параметры)?
26. Обучение с учителем (supervised learning) Функция потерь (loss): Определим функцию , ее значение показывает насколько сильно
27. Обучение с учителем (supervised learning) Эмпирический риск: Определим эмпирический риск как среднее значение функции потерь на
28. Линейная регрессия и переобучение
29. Переобучение для линейной регрессии Вспомним как выглядит линейная регрессия: Обучение линейной регрессии: Классически в качестве лосса
30. Переобучение для линейной регрессии Вспомним как выглядит линейная регрессия: Polynomial Regression: Пусть у нас изначально есть
31. Переобучение для линейной регрессии
32. Переобучение (KNN) Если в алгоритме KNN мы возьмем k = 1, то получим идеальные предсказания на
33. Как определить термин переобучение и потом находить его?
34. Разделение на Train/Validation/Test Train - данные для обучения. Validation - данные для итеративной оценки качества. Test
35. Разделение на Train/Validation/Test Переобучение - ситуация, когда качество модели на train данных значительно лучше, чем на
36. Cross-validation Выполняем обучение для каждого из 5 сплитов. Итоговая оценка качества
37. Алгоритм применения ML
38. Решение задачи
40. Скачать презентацию

План
курса
Машинное обучение (3 занятия)
Нейронные сети (2 занятия)
Сверточные нейронные сети (2 занятия)
Детекция (1

занятие)
Сегментация (1 занятие)
GAN (1 занятие)
Гостевая лекция (1 занятие)
Практическое занятие по CNN (1 занятие)
Kaggle (1 занятие)

План
лекции
Типы задач машинного обучения
Обучение с учителем
KNN
Обучение моделей
Линейная регрессия и переобучение
Алгоритм применения ML

к задачам

Типы задач машинного обучения

Unsupervised learning
Кластеризация. Применение на практике: разделение аудитории на группы с общими интересами

для эффективной рекламы.

Reinforcement learning
Reinforcement Learning основан на том, что алгоритм за каждое свое действие

получает награду или наказание.
AlphaGo сыграл сам с собой миллионы партий.

Обучение с учителем

Обучение с учителем (supervised learning)
X - множество объектов
Y - множество ответов
истинная зависимость.
Обучающий

датасет - множество наборов из фичей и значений целевой переменной. Мы обозначим его .

Обучение с учителем (supervised learning)
Типы признаков (features):
Числовые (Numerical)
Категориальные (Categorical)
Порядковые (Ordinal)
Типы задач:
Классификация (Classification)
Регрессия

(Regression)
Ранжирование (Ranking)

(числа упорядочены)

Примеры задач (Ирисы Фишера)
Какая это задача?
Какие есть признаки?

Примеры задач (Ирисы Фишера)
Какая это задача?
.
Задача классификации.
Какие есть признаки?
.
Есть

только числовые признаки.

Примеры задач (Цена дома)
Какая это задача?
Какие есть признаки?
Нужно предсказать стоимость дома. Есть

обучающий датасет со следующими признаками:
Удаленность от метро.
Оценка состояния дома (плохое, среднее, хорошее, отличное).
Количество комнат.
Площадь.
Год строительства.
Название района, в котором находится дом.

Слайд 14

Примеры задач (Цена дома)
Какая это задача?
.
Задача регрессии.
Какие есть признаки?
Числовые, порядковые,

категориальные.

Нужно предсказать стоимость дома. Есть обучающий датасет со следующими признаками:
Удаленность от метро.
Оценка состояния дома (плохое, среднее, хорошее, отличное).
Количество комнат.
Площадь.
Год строительства.
Название района, в котором находится дом.

Слайд 15

Примеры задач (Поисковая выдача)
Какая это задача?
Какие есть признаки?
Получив запрос от пользователя нужно

найти наиболее полезные документы из некоторой базы.
Что нам известно:
Запрос пользователя.
Текст документа.
Какие ключевые слова есть в каждом документе.
Насколько каждый документ популярен.
итд.

Слайд 16

Примеры задач (Поисковая выдача)
Какая это задача?
Задача ранжирования.
Какие есть признаки?
Данные намного сложнее и

требуют предобработки.

Получив запрос от пользователя нужно найти наиболее полезные документы из некоторой базы.
Что нам известно:
Запрос пользователя.
Текст документа.
Какие ключевые слова есть в каждом документе.
Насколько каждый документ популярен.
итд.

(числа упорядочены)

Слайд 17

KNN

Слайд 18

K-Nearest Neighbors
Images from https://www.unite.ai/what-is-k-nearest-neighbors
Решение задачи классификации:
Обучение: Просто запоминаем обучающую выборку.
Предсказание:
Получаем точку х,

в которой надо сделать предсказание.
Ищем k ближайших соседей.
В качестве ответа возвращаем класс, которого больше всего среди соседей.

Слайд 19

Curse of Dimensionality
В KNN мы делаем очень слабое предположение: близкие точки будут

иметь близкие ответы.
При большой размерности данных в близкую область попадет мало объектов.

Два признака

Три признака

Десятки признаков

Слайд 20

Feature Scale
Если в качестве метрики взять обычное расстояние между векторами, то возникает

проблема масштаба признаков.
Пример:
Задача определения стоимости дома по признакам:
Расстояние до метро в метрах
Количество комнат
Количество комнат почти не будет влиять на
предсказание

Слайд 21

Обучение моделей

Слайд 22

Обучение с учителем (supervised learning)
Наша задача - найти функцию хорошо приближающую реальную

зависимость .
Назовем такое решение (эта функция должна быть вычислима на компьютере).
Обычно мы выбираем решение из некоторого параметризованного семейства.

множество параметров.

Слайд 23

Пример семейства моделей (функции порога)
Задача: определить, можно ли ребенку пройти на аттракцион?

Причем мы знаем его рост и возраст.
Множество, в котором мы будем искать решения состоит из функций вида:
Параметр в данном случае . А множество возможных значений параметра .

Слайд 24

Обучение с учителем (supervised learning)
Обучение -- процесс выбора параметра , которому соответствует

наиболее подходящее нам решение задачи .

Слайд 25

Обучение с учителем (supervised learning)
Как обучать алгоритм (подбирать оптимальные параметры)?

Слайд 26

Обучение с учителем (supervised learning)
Функция потерь (loss):
Определим функцию , ее значение показывает

насколько сильно наше предсказание отличается от реального значения.
Пример:
Задача предсказания цены дома из предыдущих примеров.
Возможные функции потерь:

--- квадратичная функция потерь

--- абсолютная функция потерь

Слайд 27

Обучение с учителем (supervised learning)
Эмпирический риск:
Определим эмпирический риск как среднее значение функции

потерь на обучающем датасете.
Часто функцию эмпирического риска также называют лоссом.
Обучение:

(Это просто математическое определение. Конкретный алгоритм получения лучшего параметра для каждой модели свой.)

Слайд 28

Линейная регрессия и переобучение

Слайд 29

Переобучение для линейной регрессии
Вспомним как выглядит линейная регрессия:
Обучение линейной регрессии:
Классически в

качестве лосса берут Mean Squared Error (среднее квадратов ошибок)

Слайд 30

Переобучение для линейной регрессии
Вспомним как выглядит линейная регрессия:
Polynomial Regression:
Пусть у нас

изначально есть только один признак x. Создадим новые:
Тогда линейная регрессия от таких признаков называется полиномиальной:

Слайд 31

Переобучение для линейной регрессии

Слайд 32

Переобучение (KNN)
Если в алгоритме KNN мы возьмем k = 1, то получим

идеальные предсказания на всем обучающем датасете и эмпирический риск (средний лосс) будет равен 0.
Но такие предсказания могут быть очень плохими.

Слайд 33

Как определить термин переобучение и потом находить его?

Слайд 34

Разделение на Train/Validation/Test
Train - данные для обучения.
Validation - данные для итеративной оценки

качества.
Test - данные для финальной оценки качества.
Часто можно опустить test часть. В этом случае название validation dataset и test dataset значат одно и то же.

Слайд 35

Разделение на Train/Validation/Test
Переобучение - ситуация, когда качество модели на train данных значительно

лучше, чем на validation/test.

-точка из test датасета

-точка из train датасета

Машинное обучение. Линейная регрессия и переобучение. Алгоритм применения ML к задачам

Содержание

ПланкурсаМашинное обучение (3 занятия)Нейронные сети (2 занятия)Сверточные нейронные сети (2 занятия)Детекция (1

ПланлекцииТипы задач машинного обученияОбучение с учителемKNNОбучение моделейЛинейная регрессия и переобучениеАлгоритм применения ML

Типы задач машинного обучения

Unsupervised learningКластеризация. Применение на практике: разделение аудитории на группы с общими интересами

Reinforcement learningReinforcement Learning основан на том, что алгоритм за каждое свое действие

Обучение с учителем

Обучение с учителем (supervised learning)X - множество объектовY - множество ответовистинная зависимость.Обучающий

Обучение с учителем (supervised learning)Типы признаков (features):Числовые (Numerical)Категориальные (Categorical)Порядковые (Ordinal)Типы задач:Классификация (Classification)Регрессия

Примеры задач (Ирисы Фишера)Какая это задача?Какие есть признаки?

Примеры задач (Ирисы Фишера)Какая это задача? . Задача классификации.Какие есть признаки? .Есть

Примеры задач (Цена дома)Какая это задача?Какие есть признаки?Нужно предсказать стоимость дома. Есть

Примеры задач (Цена дома)Какая это задача? . Задача регрессии.Какие есть признаки?Числовые, порядковые,

Примеры задач (Поисковая выдача)Какая это задача?Какие есть признаки?Получив запрос от пользователя нужно

Примеры задач (Поисковая выдача)Какая это задача?Задача ранжирования.Какие есть признаки?Данные намного сложнее и

KNN

K-Nearest NeighborsImages from https://www.unite.ai/what-is-k-nearest-neighborsРешение задачи классификации:Обучение: Просто запоминаем обучающую выборку.Предсказание:Получаем точку х,

Curse of DimensionalityВ KNN мы делаем очень слабое предположение: близкие точки будут

Feature ScaleЕсли в качестве метрики взять обычное расстояние между векторами, то возникает

Обучение моделей

Обучение с учителем (supervised learning)Наша задача - найти функцию хорошо приближающую реальную

Пример семейства моделей (функции порога)Задача: определить, можно ли ребенку пройти на аттракцион?

Обучение с учителем (supervised learning)Обучение -- процесс выбора параметра , которому соответствует

Обучение с учителем (supervised learning)Как обучать алгоритм (подбирать оптимальные параметры)?

Обучение с учителем (supervised learning)Функция потерь (loss):Определим функцию , ее значение показывает

Обучение с учителем (supervised learning)Эмпирический риск:Определим эмпирический риск как среднее значение функции