Слайд 2Методы
Изменение способа определения шага
Изменение способа вычисления Δω
Слайд 3Изменение способа определения шага
Определять скорость обучения отдельно для каждого элемента W.
Изменять скорость
обучения для каждой итерации.
Если производная функции стоимости имеет постоянный знак для нескольких итераций, то скорость обучения растет
Если производная функции стоимости показывает изменение знак для нескольких итераций, то скорость обучения растет
Вносить импульсные вариации в скорость обучения.
Слайд 4Изменение способа вычисления Δω
Градиентный спуск
Методы сопряженных градиентов.
Квази-Ньютоновские методы.
Метод стохастиеского градиента
Слайд 5Градиентный спуск
Вектор частных производных функции
Задает направление наискорейшего возрастания этой функции
Слайд 6Метод сопряженных градиентов
Задача минимизации квадратичной функции.
Функцию стоимости аппроксимируем квадратичной функцией
f(w)=1/2 WT H
W - ∂Eav(W)/∂W W + c
В качестве направления наискорейшего спуска выбираем резидуальную ошибку r(n) – ошибка нахождения минимума
Не использует Гессиан, но его приближение
Слайд 7Нелинейный алгоритм сопряжен градиентов
Инициализация
Вычисления
W(0) по ВР находим градиент g(0)
S(0)=r(0)=-g(0) (r(0) – резидуальная
ошибка)
Для шага n - линейный поиск параметра η(n)
Находится группа (которая является нетривиальным интервалом), гарантированно содержащая минимум.
Разделение на подгруппы меньшего размера
Слайд 8Нелинейный алгоритм сопряжен градиентов
Ошибка r(n)W(n+1)=W(n)+ η(n)
s(n)
По ВР находим g(n+1)
r(n+1)=- g(n+1)
Вычисляем b по Полаку-Рибьеру
b(n+1)=max{0, (rT(n+1)(r(n+1)- r(n)))/(rT(n) r(n))}
Изменяем значение направления
s(n+1)=r(n+1)+b(n+1) s(n)
n=n+1 и к 3.
Слайд 9Метод Ньютона
Формула ньютона
Гессиан функции ошибки
Слайд 10LM
ΔW= -(JT J +I*M)-1 JT E
H ≈ JT J
J- Якобиан
g= JT E
Слайд 11BFGS
ΔW= - H-1g(n)
s(n)P(n)=-g(n)
s(n)=s(n-1)+u(n)
V(n)=W(n+1)-W(n)
Y(n)=g(n+1)-g(n)
S(n+1)V(n)=Y(n)
Broyden-Fletcher-Goldfarb-Shano
P(n+1)=-g(n) +[(V(n)* g(n+1))*s(n)/(Y(n)*s(n))]
Слайд 12Стохастический градиентный спуск
SGD (Stochastic Gradient Descent)
Слайд 13Стохастический градиентный спуск
Текущий шаг
Выбрать объект xi из (например, случайным образом);
Вычислить выходное значение алгоритма и ошибку;
Сделать шаг
градиентного спуска;
Оценить значение функционала;
Пока значение не стабилизируется и/или веса не перестанут изменяться.