Линейная регрессия

Содержание

Слайд 2

Почему линейные модели до сих пор используются?

Очень простые, поэтому можно использовать там,

Почему линейные модели до сих пор используются? Очень простые, поэтому можно использовать
где нужна интерпретируемость модели и надежность.
Не переобучаются
Легко применять

Слайд 3

Постановка задачи

Датасет:

Функция потерь:

Постановка задачи Датасет: Функция потерь:

Слайд 4

Определение модели

Мы будем искать модель в следующем виде

Намного удобнее для записи внести

Определение модели Мы будем искать модель в следующем виде Намного удобнее для
1 в вектор признаков

Слайд 5

Линейность по параметрам

Какое может быть происхождение у признаков ?
Просто численный признак
Преобразования численных

Линейность по параметрам Какое может быть происхождение у признаков ? Просто численный
признаков (корень, логарифм, итд)
Степени численного признака
Значения из One-Hot-Encoding
Взаимодействия между разными признаками (
Линейная модель линейна по параметрам, а не признакам.

)

Слайд 6

Пример

Пример

Слайд 7

Точное решение

Запишем то, что мы хотим получить:

Точное решение Запишем то, что мы хотим получить:

Слайд 8

Точное решение

Случай , тогда матрица - квадратная и может иметь обратную.

=

Система линейных

Точное решение Случай , тогда матрица - квадратная и может иметь обратную.
уравнений:

Решение:

Слайд 9

Pseudo-Inverse

Обычно , тогда у нас переопределенная система линейных уравнений.

=

Система линейных уравнений:

Приближенное решение:

Псевдообратная

Pseudo-Inverse Обычно , тогда у нас переопределенная система линейных уравнений. = Система
матрица дает решение с наименьшей квадратичной ошибкой.

Слайд 10

Получение решения через производную

Подставим выражение для в функцию потерь и запишем в

Получение решения через производную Подставим выражение для в функцию потерь и запишем
векторном виде:

Возьмем производную

Слайд 11

Обучение классификаторов

Обучение классификаторов

Слайд 12

Получение решения через производную

Возьмем производную

Если у линейно независимые столбцы, то можно приравнять

Получение решения через производную Возьмем производную Если у линейно независимые столбцы, то
производную к нулю.

Слайд 13

Постановка задачи

Датасет:

Функция потерь:

, . То есть это вектор из 0 и

Постановка задачи Датасет: Функция потерь: , . То есть это вектор из
1

Будет позже

Слайд 14

Мы хотим выбрать функцию потерь, но какая лучше всего подойдет не знаем.
Попробуем

Мы хотим выбрать функцию потерь, но какая лучше всего подойдет не знаем.
искать лучшую модель с помощью теоремы из статистики.

Слайд 15

Вероятностная модель

Х- случайная величина вектор признаков.
Y- случайная величина целевая переменная.

Пример случайной модели

Вероятностная модель Х- случайная величина вектор признаков. Y- случайная величина целевая переменная.
(клики на рекламу):
X = (количество кликов раньше, время активности, уровень доходов)
Y = 1 если клик будет, 0 если клика не будет.
Тогда можно задать распределение вероятностей:

вероятность того, что человек с заданными характеристиками кликнет на рекламу.

Слайд 16

Функция правдоподобия

Найдем способ для обучения любой модели, предсказывающей вероятность принадлежности к классу.

Функция правдоподобия Найдем способ для обучения любой модели, предсказывающей вероятность принадлежности к

- вектор признаков, - наша модель.

Назовем правдоподобием
Это вероятность получения нашей выборки согласно предсказаниям модели.

Слайд 17

Обучение модели через максимальное правдоподобие

Теорема из статистики гарантирует, что если мы найдем

Обучение модели через максимальное правдоподобие Теорема из статистики гарантирует, что если мы
параметры модели, которые максимизируют правдоподобие, то они будут хорошие.

Слайд 18

Связь с минимизацией функции потерь

Преобразуем задачу максимизации в задачу минимизации.

Мы видим что

Связь с минимизацией функции потерь Преобразуем задачу максимизации в задачу минимизации. Мы
минимизация полученного выражения - то же самое, что минимизация эмпирического риска, где функция потерь - логарифм вероятности правильного класса.

Слайд 19

Что мы сделали

Мы знаем, что максимизация правдоподобия дает хорошие веса из статистики.
Изменив

Что мы сделали Мы знаем, что максимизация правдоподобия дает хорошие веса из
формулу, мы смогли найти такую функцию потерь, что ее минимизация и максимизация правдоподобия это одно и то же.

Слайд 20

Логистическая регрессия

Логистическая регрессия

Слайд 21

Определение модели

Мы будем искать модель в следующем виде.

Определение сигмоиды:

Определение модели Мы будем искать модель в следующем виде. Определение сигмоиды:

Слайд 22

Предсказание вероятности

Будем считать, что наша модель предсказывает вероятности. Именно поэтому она называется

Предсказание вероятности Будем считать, что наша модель предсказывает вероятности. Именно поэтому она
регрессией.
Вероятносвть для двух классов можно расписать так:

Слайд 23

Пример работы

Как выглядит обученная логистическая регрессия на данных с одним признаком.

Пример работы Как выглядит обученная логистическая регрессия на данных с одним признаком.

Слайд 24

Обучение логистической регрессии

В полученную ранее формулу функции потерь можно подставить вероятность, которую

Обучение логистической регрессии В полученную ранее формулу функции потерь можно подставить вероятность,
предсказывает логистическая регрессия.

Функция потерь для произвольного классификатора:

Функция потерь для логистической регрессии (LogLoss):

Слайд 25

Обобщение на много классов

Пусть у нас есть m классов. Введем две новые

Обобщение на много классов Пусть у нас есть m классов. Введем две новые функции:
функции:

Слайд 26

Пример работы Softmax

Пример работы Softmax

Слайд 27

Много классов

Выпишем предсказанную вероятность для к-го класса.
Ее можно подставить в функцию

Много классов Выпишем предсказанную вероятность для к-го класса. Ее можно подставить в
потерь для произвольного классификатора.

Слайд 28

Градиентный спуск

Градиентный спуск

Слайд 29

Обучение логистической регрессии

В полученную ранее формулу функции потерь можно подставить вероятность, которую

Обучение логистической регрессии В полученную ранее формулу функции потерь можно подставить вероятность,
предсказывает логистическая регрессия.

Функция потерь для произвольного классификатора:

Функция потерь для логистической регрессии (LogLoss):

Слайд 30

Эвристика градиентного спуска

Эвристика градиентного спуска

Слайд 31

Градиентный спуск формализация

У нас стоит задача минимизации какой-то функции:

Чтобы применять метод градиентного

Градиентный спуск формализация У нас стоит задача минимизации какой-то функции: Чтобы применять
спуска нужно уметь вычислять градиент функции в точке:

Заранее зададим некоторое число , которое будет влиять на то, насколько большие шаги мы делаем. Оно называется learning rate

Слайд 32

Шаг градиентного спуска

На каждом шаге будем менять все переменные, от которых зависит

Шаг градиентного спуска На каждом шаге будем менять все переменные, от которых
функция:

...

Или в векторной форме:

Слайд 33

Градиентный спуск

Выбираем точку, с которой начнем оптимизацию.

На каждом шаге будем менять все

Градиентный спуск Выбираем точку, с которой начнем оптимизацию. На каждом шаге будем
переменные, от которых зависит функция:

...

Или в векторной форме:
Повторяем, пока изменение не будет достаточно маленьким или пройдет много шагов.

Слайд 34

Градиентный спуск для параболы

Будем минимизировать ,
/ /
Теперь делаем обновления:
С каждым шагом мы

Градиентный спуск для параболы Будем минимизировать , / / Теперь делаем обновления:
будем приближаться к 0 - минимуму функции.

Слайд 35

Градиентный спуск для линейной регрессии

Функция потерь (она зависит только от весов, потому

Градиентный спуск для линейной регрессии Функция потерь (она зависит только от весов,
что изменять мы будем их):

Производная функции потерь по весам:

Слайд 36

Градиентный спуск для линейной регрессии

Пошагово возьмем производную лосса по параметрам:

Градиентный спуск для линейной регрессии Пошагово возьмем производную лосса по параметрам:

Слайд 37

Градиентный спуск для линейной регрессии

Функция потерь (она зависит только от весов, потому

Градиентный спуск для линейной регрессии Функция потерь (она зависит только от весов,
что изменять мы будем их):

Производная функции потерь по весам:

Слайд 38

Градиентный спуск для линейной регрессии

Будем минимизировать
Как-то выберем начальные веса.
Теперь делаем обновления:

Градиентный спуск для линейной регрессии Будем минимизировать Как-то выберем начальные веса. Теперь делаем обновления:

Слайд 39

Градиентный спуск для логистической регрессии

Функция потерь:

Градиентный спуск для логистической регрессии Функция потерь:

Слайд 40

Градиентный спуск для логистической регрессии

Возьмем производную:

Соединим:

Градиентный спуск для логистической регрессии Возьмем производную: Соединим:

Слайд 41

Регуляризация

Регуляризация

Слайд 42

Мультиколлинеарность для линейной регрессии

Вспомним определение линейной регрессии:

Если столбцы матрицы линейно зависимы, то

Мультиколлинеарность для линейной регрессии Вспомним определение линейной регрессии: Если столбцы матрицы линейно
существуют такие коэффициенты , что .
Но тогда существует бесконечное количество весов, дающих одинаковые предсказания:

Слайд 43


Weight Decay

Мы можем предположить, что веса не должны быть большими по

Weight Decay Мы можем предположить, что веса не должны быть большими по
модулю.
Изменим функцию потерь, чтобы отражать это ( - некоторая константа):

-регуляризация

-регуляризация

Слайд 44

Как изменится градиент


-регуляризация

-регуляризация

Как изменится градиент -регуляризация -регуляризация

Слайд 45

Нормализация признаков

Нормализация признаков

Слайд 46

Что такое нормализация?

Мы изменяем признаки в датасете по правилу:

- среднее значение

Что такое нормализация? Мы изменяем признаки в датасете по правилу: - среднее
j-го признака в обучающей выборке
- стандартное отклонение j-го признака в обучающей выборке

Слайд 47

Зачем?

Градиентный спуск и другие методы плохо работают на признаках с очень большим

Зачем? Градиентный спуск и другие методы плохо работают на признаках с очень
или маленьким масштабом.
Разный масштаб весов вредит регуляризации.
Для нормированных данных веса говорят о важности признаков.