Линейная регрессия

Март 10, 2021

Главная
Математика
Линейная регрессия

Содержание

2. Почему линейные модели до сих пор используются? Очень простые, поэтому можно использовать там, где нужна интерпретируемость
3. Постановка задачи Датасет: Функция потерь:
4. Определение модели Мы будем искать модель в следующем виде Намного удобнее для записи внести 1 в
5. Линейность по параметрам Какое может быть происхождение у признаков ? Просто численный признак Преобразования численных признаков
6. Пример
7. Точное решение Запишем то, что мы хотим получить:
8. Точное решение Случай , тогда матрица - квадратная и может иметь обратную. = Система линейных уравнений:
9. Pseudo-Inverse Обычно , тогда у нас переопределенная система линейных уравнений. = Система линейных уравнений: Приближенное решение:
10. Получение решения через производную Подставим выражение для в функцию потерь и запишем в векторном виде: Возьмем
11. Обучение классификаторов
12. Получение решения через производную Возьмем производную Если у линейно независимые столбцы, то можно приравнять производную к
13. Постановка задачи Датасет: Функция потерь: , . То есть это вектор из 0 и 1 Будет
14. Мы хотим выбрать функцию потерь, но какая лучше всего подойдет не знаем. Попробуем искать лучшую модель
15. Вероятностная модель Х- случайная величина вектор признаков. Y- случайная величина целевая переменная. Пример случайной модели (клики
16. Функция правдоподобия Найдем способ для обучения любой модели, предсказывающей вероятность принадлежности к классу. - вектор признаков,
17. Обучение модели через максимальное правдоподобие Теорема из статистики гарантирует, что если мы найдем параметры модели, которые
18. Связь с минимизацией функции потерь Преобразуем задачу максимизации в задачу минимизации. Мы видим что минимизация полученного
19. Что мы сделали Мы знаем, что максимизация правдоподобия дает хорошие веса из статистики. Изменив формулу, мы
20. Логистическая регрессия
21. Определение модели Мы будем искать модель в следующем виде. Определение сигмоиды:
22. Предсказание вероятности Будем считать, что наша модель предсказывает вероятности. Именно поэтому она называется регрессией. Вероятносвть для
23. Пример работы Как выглядит обученная логистическая регрессия на данных с одним признаком.
24. Обучение логистической регрессии В полученную ранее формулу функции потерь можно подставить вероятность, которую предсказывает логистическая регрессия.
25. Обобщение на много классов Пусть у нас есть m классов. Введем две новые функции:
26. Пример работы Softmax
27. Много классов Выпишем предсказанную вероятность для к-го класса. Ее можно подставить в функцию потерь для произвольного
28. Градиентный спуск
29. Обучение логистической регрессии В полученную ранее формулу функции потерь можно подставить вероятность, которую предсказывает логистическая регрессия.
30. Эвристика градиентного спуска
31. Градиентный спуск формализация У нас стоит задача минимизации какой-то функции: Чтобы применять метод градиентного спуска нужно
32. Шаг градиентного спуска На каждом шаге будем менять все переменные, от которых зависит функция: ... Или
33. Градиентный спуск Выбираем точку, с которой начнем оптимизацию. На каждом шаге будем менять все переменные, от
34. Градиентный спуск для параболы Будем минимизировать , / / Теперь делаем обновления: С каждым шагом мы
35. Градиентный спуск для линейной регрессии Функция потерь (она зависит только от весов, потому что изменять мы
36. Градиентный спуск для линейной регрессии Пошагово возьмем производную лосса по параметрам:
37. Градиентный спуск для линейной регрессии Функция потерь (она зависит только от весов, потому что изменять мы
38. Градиентный спуск для линейной регрессии Будем минимизировать Как-то выберем начальные веса. Теперь делаем обновления:
39. Градиентный спуск для логистической регрессии Функция потерь:
40. Градиентный спуск для логистической регрессии Возьмем производную: Соединим:
41. Регуляризация
42. Мультиколлинеарность для линейной регрессии Вспомним определение линейной регрессии: Если столбцы матрицы линейно зависимы, то существуют такие
43. Weight Decay Мы можем предположить, что веса не должны быть большими по модулю. Изменим функцию потерь,
44. Как изменится градиент -регуляризация -регуляризация
45. Нормализация признаков
46. Что такое нормализация? Мы изменяем признаки в датасете по правилу: - среднее значение j-го признака в
47. Зачем? Градиентный спуск и другие методы плохо работают на признаках с очень большим или маленьким масштабом.
49. Скачать презентацию

Слайд 2

Почему линейные модели до сих пор используются?
Очень простые, поэтому можно использовать там,

где нужна интерпретируемость модели и надежность.
Не переобучаются
Легко применять

Слайд 3

Постановка задачи
Датасет:
Функция потерь:

Слайд 4

Определение модели
Мы будем искать модель в следующем виде
Намного удобнее для записи внести

1 в вектор признаков

Слайд 5

Линейность по параметрам
Какое может быть происхождение у признаков ?
Просто численный признак
Преобразования численных

признаков (корень, логарифм, итд)
Степени численного признака
Значения из One-Hot-Encoding
Взаимодействия между разными признаками (
Линейная модель линейна по параметрам, а не признакам.

)

Слайд 6

Пример

Слайд 7

Точное решение
Запишем то, что мы хотим получить:

Слайд 8

Точное решение
Случай , тогда матрица - квадратная и может иметь обратную.
=
Система линейных

уравнений:

Решение:

Слайд 9

Pseudo-Inverse
Обычно , тогда у нас переопределенная система линейных уравнений.
=
Система линейных уравнений:
Приближенное решение:
Псевдообратная

матрица дает решение с наименьшей квадратичной ошибкой.

Слайд 10

Получение решения через производную
Подставим выражение для в функцию потерь и запишем в

векторном виде:

Возьмем производную

Слайд 11

Обучение классификаторов

Слайд 12

Получение решения через производную
Возьмем производную
Если у линейно независимые столбцы, то можно приравнять

производную к нулю.

Слайд 13

Постановка задачи
Датасет:
Функция потерь:
, . То есть это вектор из 0 и

Будет позже

Слайд 14

Мы хотим выбрать функцию потерь, но какая лучше всего подойдет не знаем.
Попробуем

искать лучшую модель с помощью теоремы из статистики.

Слайд 15

Вероятностная модель
Х- случайная величина вектор признаков.
Y- случайная величина целевая переменная.
Пример случайной модели

(клики на рекламу):
X = (количество кликов раньше, время активности, уровень доходов)
Y = 1 если клик будет, 0 если клика не будет.
Тогда можно задать распределение вероятностей:

вероятность того, что человек с заданными характеристиками кликнет на рекламу.

Слайд 16

Функция правдоподобия
Найдем способ для обучения любой модели, предсказывающей вероятность принадлежности к классу.

- вектор признаков, - наша модель.

Назовем правдоподобием
Это вероятность получения нашей выборки согласно предсказаниям модели.

Слайд 17

Обучение модели через максимальное правдоподобие
Теорема из статистики гарантирует, что если мы найдем

параметры модели, которые максимизируют правдоподобие, то они будут хорошие.

Слайд 18

Связь с минимизацией функции потерь
Преобразуем задачу максимизации в задачу минимизации.
Мы видим что

минимизация полученного выражения - то же самое, что минимизация эмпирического риска, где функция потерь - логарифм вероятности правильного класса.

Слайд 19

Что мы сделали
Мы знаем, что максимизация правдоподобия дает хорошие веса из статистики.
Изменив

формулу, мы смогли найти такую функцию потерь, что ее минимизация и максимизация правдоподобия это одно и то же.

Слайд 20

Логистическая регрессия

Слайд 21

Определение модели
Мы будем искать модель в следующем виде.
Определение сигмоиды:

Слайд 22

Предсказание вероятности
Будем считать, что наша модель предсказывает вероятности. Именно поэтому она называется

регрессией.
Вероятносвть для двух классов можно расписать так:

Слайд 23

Пример работы
Как выглядит обученная логистическая регрессия на данных с одним признаком.

Слайд 24

Обучение логистической регрессии
В полученную ранее формулу функции потерь можно подставить вероятность, которую

предсказывает логистическая регрессия.

Функция потерь для произвольного классификатора:

Функция потерь для логистической регрессии (LogLoss):

Слайд 25

Обобщение на много классов
Пусть у нас есть m классов. Введем две новые

функции:

Слайд 26

Пример работы Softmax

Слайд 27

Много классов
Выпишем предсказанную вероятность для к-го класса.
Ее можно подставить в функцию

потерь для произвольного классификатора.

Слайд 28

Градиентный спуск

Слайд 29

Обучение логистической регрессии
В полученную ранее формулу функции потерь можно подставить вероятность, которую

предсказывает логистическая регрессия.

Функция потерь для произвольного классификатора:

Функция потерь для логистической регрессии (LogLoss):

Слайд 30

Эвристика градиентного спуска

Слайд 31

Градиентный спуск формализация
У нас стоит задача минимизации какой-то функции:
Чтобы применять метод градиентного

спуска нужно уметь вычислять градиент функции в точке:

Заранее зададим некоторое число , которое будет влиять на то, насколько большие шаги мы делаем. Оно называется learning rate

Слайд 32

Шаг градиентного спуска
На каждом шаге будем менять все переменные, от которых зависит

функция:

...

Или в векторной форме:

Слайд 33

Градиентный спуск
Выбираем точку, с которой начнем оптимизацию.
На каждом шаге будем менять все

переменные, от которых зависит функция:

...

Или в векторной форме:
Повторяем, пока изменение не будет достаточно маленьким или пройдет много шагов.

Слайд 34

Градиентный спуск для параболы
Будем минимизировать ,
/ /
Теперь делаем обновления:
С каждым шагом мы

будем приближаться к 0 - минимуму функции.

Слайд 35

Градиентный спуск для линейной регрессии
Функция потерь (она зависит только от весов, потому

что изменять мы будем их):

Производная функции потерь по весам:

Слайд 36

Градиентный спуск для линейной регрессии
Пошагово возьмем производную лосса по параметрам:

Слайд 37

Градиентный спуск для линейной регрессии
Функция потерь (она зависит только от весов, потому

что изменять мы будем их):

Производная функции потерь по весам:

Слайд 38

Градиентный спуск для линейной регрессии
Будем минимизировать
Как-то выберем начальные веса.
Теперь делаем обновления:

Слайд 39

Градиентный спуск для логистической регрессии
Функция потерь:

Слайд 40

Градиентный спуск для логистической регрессии
Возьмем производную:
Соединим:

Слайд 41

Регуляризация

Слайд 42

Мультиколлинеарность для линейной регрессии
Вспомним определение линейной регрессии:
Если столбцы матрицы линейно зависимы, то

существуют такие коэффициенты , что .
Но тогда существует бесконечное количество весов, дающих одинаковые предсказания:

Слайд 43

Weight Decay
Мы можем предположить, что веса не должны быть большими по

модулю.
Изменим функцию потерь, чтобы отражать это ( - некоторая константа):

-регуляризация

Слайд 44

Как изменится градиент

-регуляризация
-регуляризация

Слайд 45

Нормализация признаков

Слайд 46

Что такое нормализация?
Мы изменяем признаки в датасете по правилу:
- среднее значение

j-го признака в обучающей выборке
- стандартное отклонение j-го признака в обучающей выборке

Слайд 47

Зачем?
Градиентный спуск и другие методы плохо работают на признаках с очень большим

или маленьким масштабом.
Разный масштаб весов вредит регуляризации.
Для нормированных данных веса говорят о важности признаков.

Линейная регрессия

Содержание

Почему линейные модели до сих пор используются?Очень простые, поэтому можно использовать там,

Постановка задачиДатасет:Функция потерь:

Определение моделиМы будем искать модель в следующем видеНамного удобнее для записи внести

Линейность по параметрамКакое может быть происхождение у признаков ?Просто численный признакПреобразования численных

Пример

Точное решениеЗапишем то, что мы хотим получить:

Точное решениеСлучай , тогда матрица - квадратная и может иметь обратную.=Система линейных

Pseudo-InverseОбычно , тогда у нас переопределенная система линейных уравнений.=Система линейных уравнений:Приближенное решение:Псевдообратная

Получение решения через производнуюПодставим выражение для в функцию потерь и запишем в

Обучение классификаторов

Получение решения через производнуюВозьмем производнуюЕсли у линейно независимые столбцы, то можно приравнять

Постановка задачиДатасет:Функция потерь: , . То есть это вектор из 0 и

Мы хотим выбрать функцию потерь, но какая лучше всего подойдет не знаем.Попробуем

Вероятностная модельХ- случайная величина вектор признаков.Y- случайная величина целевая переменная.Пример случайной модели

Функция правдоподобияНайдем способ для обучения любой модели, предсказывающей вероятность принадлежности к классу.

Обучение модели через максимальное правдоподобиеТеорема из статистики гарантирует, что если мы найдем

Связь с минимизацией функции потерьПреобразуем задачу максимизации в задачу минимизации.Мы видим что

Что мы сделалиМы знаем, что максимизация правдоподобия дает хорошие веса из статистики.Изменив

Логистическая регрессия

Определение моделиМы будем искать модель в следующем виде.Определение сигмоиды:

Предсказание вероятностиБудем считать, что наша модель предсказывает вероятности. Именно поэтому она называется

Пример работы Как выглядит обученная логистическая регрессия на данных с одним признаком.

Обучение логистической регрессииВ полученную ранее формулу функции потерь можно подставить вероятность, которую

Обобщение на много классовПусть у нас есть m классов. Введем две новые

Пример работы Softmax

Много классовВыпишем предсказанную вероятность для к-го класса. Ее можно подставить в функцию

Градиентный спуск

Обучение логистической регрессииВ полученную ранее формулу функции потерь можно подставить вероятность, которую

Эвристика градиентного спуска

Градиентный спуск формализацияУ нас стоит задача минимизации какой-то функции:Чтобы применять метод градиентного

Шаг градиентного спускаНа каждом шаге будем менять все переменные, от которых зависит

Градиентный спускВыбираем точку, с которой начнем оптимизацию.На каждом шаге будем менять все

Градиентный спуск для параболыБудем минимизировать ,/ /Теперь делаем обновления:С каждым шагом мы

Градиентный спуск для линейной регрессииФункция потерь (она зависит только от весов, потому

Градиентный спуск для линейной регрессииПошагово возьмем производную лосса по параметрам:

Градиентный спуск для линейной регрессииФункция потерь (она зависит только от весов, потому

Градиентный спуск для линейной регрессииБудем минимизировать Как-то выберем начальные веса.Теперь делаем обновления:

Градиентный спуск для логистической регрессииФункция потерь:

Градиентный спуск для логистической регрессииВозьмем производную:Соединим:

Регуляризация

Мультиколлинеарность для линейной регрессииВспомним определение линейной регрессии:Если столбцы матрицы линейно зависимы, то

Weight DecayМы можем предположить, что веса не должны быть большими по

Как изменится градиент -регуляризация -регуляризация

Нормализация признаков

Что такое нормализация?Мы изменяем признаки в датасете по правилу: - среднее значение

Зачем?Градиентный спуск и другие методы плохо работают на признаках с очень большим

Похожие презентации

Почему линейные модели до сих пор используются?
Очень простые, поэтому можно использовать там,

Постановка задачи
Датасет:
Функция потерь:

Определение модели
Мы будем искать модель в следующем виде
Намного удобнее для записи внести

Линейность по параметрам
Какое может быть происхождение у признаков ?
Просто численный признак
Преобразования численных

Точное решение
Запишем то, что мы хотим получить:

Точное решение
Случай , тогда матрица - квадратная и может иметь обратную.
=
Система линейных

Pseudo-Inverse
Обычно , тогда у нас переопределенная система линейных уравнений.
=
Система линейных уравнений:
Приближенное решение:
Псевдообратная

Получение решения через производную
Подставим выражение для в функцию потерь и запишем в

Получение решения через производную
Возьмем производную
Если у линейно независимые столбцы, то можно приравнять

Постановка задачи
Датасет:
Функция потерь:
, . То есть это вектор из 0 и

Мы хотим выбрать функцию потерь, но какая лучше всего подойдет не знаем.
Попробуем

Вероятностная модель
Х- случайная величина вектор признаков.
Y- случайная величина целевая переменная.
Пример случайной модели

Функция правдоподобия
Найдем способ для обучения любой модели, предсказывающей вероятность принадлежности к классу.

Обучение модели через максимальное правдоподобие
Теорема из статистики гарантирует, что если мы найдем

Связь с минимизацией функции потерь
Преобразуем задачу максимизации в задачу минимизации.
Мы видим что

Что мы сделали
Мы знаем, что максимизация правдоподобия дает хорошие веса из статистики.
Изменив

Определение модели
Мы будем искать модель в следующем виде.
Определение сигмоиды:

Предсказание вероятности
Будем считать, что наша модель предсказывает вероятности. Именно поэтому она называется

Пример работы
Как выглядит обученная логистическая регрессия на данных с одним признаком.

Обучение логистической регрессии
В полученную ранее формулу функции потерь можно подставить вероятность, которую

Обобщение на много классов
Пусть у нас есть m классов. Введем две новые

Много классов
Выпишем предсказанную вероятность для к-го класса.
Ее можно подставить в функцию

Обучение логистической регрессии
В полученную ранее формулу функции потерь можно подставить вероятность, которую

Градиентный спуск формализация
У нас стоит задача минимизации какой-то функции:
Чтобы применять метод градиентного

Шаг градиентного спуска
На каждом шаге будем менять все переменные, от которых зависит

Градиентный спуск
Выбираем точку, с которой начнем оптимизацию.
На каждом шаге будем менять все

Градиентный спуск для параболы
Будем минимизировать ,
/ /
Теперь делаем обновления:
С каждым шагом мы

Градиентный спуск для линейной регрессии
Функция потерь (она зависит только от весов, потому

Градиентный спуск для линейной регрессии
Пошагово возьмем производную лосса по параметрам:

Градиентный спуск для линейной регрессии
Функция потерь (она зависит только от весов, потому

Градиентный спуск для линейной регрессии
Будем минимизировать
Как-то выберем начальные веса.
Теперь делаем обновления:

Градиентный спуск для логистической регрессии
Функция потерь:

Градиентный спуск для логистической регрессии
Возьмем производную:
Соединим:

Мультиколлинеарность для линейной регрессии
Вспомним определение линейной регрессии:
Если столбцы матрицы линейно зависимы, то

Weight Decay
Мы можем предположить, что веса не должны быть большими по

Как изменится градиент

-регуляризация
-регуляризация

Что такое нормализация?
Мы изменяем признаки в датасете по правилу:
- среднее значение

Зачем?
Градиентный спуск и другие методы плохо работают на признаках с очень большим