Backpropagation

Март 4, 2021

Содержание

2. Общая схема обучения ... 1. prepare batch 2. forward pass 3. backward pass 4. update weights
3. Computational graph * + *-1 exp +1 x w0 w1
4. Example 1. Sigmoid * + *-1 exp +1 x w0 The Chain Rule w1
5. Example 1. Sigmoid * + *-1 exp +1 x w0 w1 The Chain Rule
6. Staged computation * + x w0 w1
7. Gradient checking
8. Patterns * + *3 x y z max
9. Patterns * + *3 max x y z
10. Example 2. Матрицы + -
11. Example 2. Матрицы Если Z = XY, то зная dZ имеем: далее dx = df /
12. Example 3. Simple NN + + L
13. Example 4. Softmax
14. Example 4. Softmax
15. На практике backprop для softmax и cross-entropy loss обычно считают вместе В таком случае получается очень
17. Скачать презентацию

Слайд 2

Общая схема обучения
...
1. prepare batch
2. forward pass
3. backward pass
4. update weights
non-linear activation
softmax

Общая схема обучения ... 1. prepare batch 2. forward pass 3. backward

Слайд 3

Computational graph
*
+
*-1
exp
+1

x
w0

w1

Computational graph * + *-1 exp +1 x w0 w1

Слайд 4

Example 1. Sigmoid
*
+
*-1
exp
+1

x
w0

The Chain Rule
w1

Example 1. Sigmoid * + *-1 exp +1 x w0 The Chain Rule w1

Слайд 5

Example 1. Sigmoid
*
+
*-1
exp
+1

x

w0
w1

The Chain Rule

Example 1. Sigmoid * + *-1 exp +1 x w0 w1 The Chain Rule

Слайд 6

Staged computation
*
+

x
w0
w1

Staged computation * + x w0 w1

Слайд 7

Gradient checking

Gradient checking

Слайд 8

Patterns
*
+
*3
x
y
z
max

Patterns * + *3 x y z max

Слайд 9

Patterns
*
+
*3
max
x
y
z

Patterns * + *3 max x y z

Слайд 10

Example 2. Матрицы

+
-

Example 2. Матрицы + -

Слайд 11

Example 2. Матрицы
Если Z = XY, то зная dZ имеем:
далее dx =

Example 2. Матрицы Если Z = XY, то зная dZ имеем: далее

df / dx
dY = XTdZ
dX = dZYT
Dimension analysis
X и dX должны иметь одинаковую размерность
Неплохое объяснение
http://cs231n.stanford.edu/vecDerivs.pdf

Слайд 12

Example 3. Simple NN

+

+

L

Example 3. Simple NN + + L

Слайд 13

Example 4. Softmax

Example 4. Softmax

Слайд 14

Example 4. Softmax

Example 4. Softmax

Слайд 15

На практике backprop для softmax и cross-entropy loss обычно считают вместе
В таком

На практике backprop для softmax и cross-entropy loss обычно считают вместе В

случае получается очень простая формула для градиента