Модификации ВР. Изменение способа определения шага. Изменение способа вычисления

Содержание

Слайд 2

Методы

Изменение способа определения шага
Изменение способа вычисления Δω

Методы Изменение способа определения шага Изменение способа вычисления Δω

Слайд 3

Изменение способа определения шага

Определять скорость обучения отдельно для каждого элемента W.
Изменять скорость

Изменение способа определения шага Определять скорость обучения отдельно для каждого элемента W.
обучения для каждой итерации.
Если производная функции стоимости имеет постоянный знак для нескольких итераций, то скорость обучения растет
Если производная функции стоимости показывает изменение знак для нескольких итераций, то скорость обучения растет
Вносить импульсные вариации в скорость обучения.

Слайд 4

Изменение способа вычисления Δω

Градиентный спуск
Методы сопряженных градиентов.
Квази-Ньютоновские методы.
Метод стохастиеского градиента

Изменение способа вычисления Δω Градиентный спуск Методы сопряженных градиентов. Квази-Ньютоновские методы. Метод стохастиеского градиента

Слайд 5

Градиентный спуск

Вектор   частных производных функции   
Задает направление наискорейшего возрастания этой функции

Градиентный спуск Вектор частных производных функции Задает направление наискорейшего возрастания этой функции

Слайд 6

Метод сопряженных градиентов

Задача минимизации квадратичной функции.
Функцию стоимости аппроксимируем квадратичной функцией
f(w)=1/2 WT H

Метод сопряженных градиентов Задача минимизации квадратичной функции. Функцию стоимости аппроксимируем квадратичной функцией
W - ∂Eav(W)/∂W W + c
В качестве направления наискорейшего спуска выбираем резидуальную ошибку r(n) – ошибка нахождения минимума
Не использует Гессиан, но его приближение

Слайд 7

Нелинейный алгоритм сопряжен градиентов

Инициализация
Вычисления
W(0) по ВР находим градиент g(0)
S(0)=r(0)=-g(0) (r(0) – резидуальная

Нелинейный алгоритм сопряжен градиентов Инициализация Вычисления W(0) по ВР находим градиент g(0)
ошибка)
Для шага n - линейный поиск параметра η(n)
Находится группа (которая является нетривиальным интервалом), гарантированно содержащая минимум.
Разделение на подгруппы меньшего размера

Слайд 8

Нелинейный алгоритм сопряжен градиентов

Ошибка r(n)W(n+1)=W(n)+ η(n)

Нелинейный алгоритм сопряжен градиентов Ошибка r(n) W(n+1)=W(n)+ η(n) s(n) По ВР находим
s(n)
По ВР находим g(n+1)
r(n+1)=- g(n+1)
Вычисляем b по Полаку-Рибьеру
b(n+1)=max{0, (rT(n+1)(r(n+1)- r(n)))/(rT(n) r(n))}
Изменяем значение направления
s(n+1)=r(n+1)+b(n+1) s(n)
n=n+1 и к 3.

Слайд 9

Метод Ньютона

Формула ньютона
Гессиан функции ошибки

Метод Ньютона Формула ньютона Гессиан функции ошибки

Слайд 10

LM

ΔW= -(JT J +I*M)-1 JT E
H ≈ JT J
J- Якобиан
g= JT E

LM ΔW= -(JT J +I*M)-1 JT E H ≈ JT J J- Якобиан g= JT E

Слайд 11

BFGS

ΔW= - H-1g(n)
s(n)P(n)=-g(n)
s(n)=s(n-1)+u(n)
V(n)=W(n+1)-W(n)
Y(n)=g(n+1)-g(n)
S(n+1)V(n)=Y(n)
Broyden-Fletcher-Goldfarb-Shano
P(n+1)=-g(n) +[(V(n)* g(n+1))*s(n)/(Y(n)*s(n))]

BFGS ΔW= - H-1g(n) s(n)P(n)=-g(n) s(n)=s(n-1)+u(n) V(n)=W(n+1)-W(n) Y(n)=g(n+1)-g(n) S(n+1)V(n)=Y(n) Broyden-Fletcher-Goldfarb-Shano P(n+1)=-g(n) +[(V(n)* g(n+1))*s(n)/(Y(n)*s(n))]

Слайд 12

Стохастический градиентный спуск

SGD (Stochastic Gradient Descent)

Стохастический градиентный спуск SGD (Stochastic Gradient Descent)

Слайд 13

Стохастический градиентный спуск

Текущий шаг
Выбрать объект xi из  (например, случайным образом);
Вычислить выходное значение алгоритма  и ошибку;
Сделать шаг

Стохастический градиентный спуск Текущий шаг Выбрать объект xi из (например, случайным образом);
градиентного спуска;
Оценить значение функционала;
Пока значение  не стабилизируется и/или веса  не перестанут изменяться.

Слайд 14

Изменение весов

2 класса

Изменение весов 2 класса

Слайд 15

Изменение весов

lm bfgs gd

Изменение весов lm bfgs gd
Имя файла: Модификации-ВР.-Изменение-способа-определения-шага.-Изменение-способа-вычисления.pptx
Количество просмотров: 37
Количество скачиваний: 0