Backpropagation

Слайд 2

Общая схема обучения

...

1. prepare batch

2. forward pass

3. backward pass

4. update weights

non-linear activation

softmax

 

 

Общая схема обучения ... 1. prepare batch 2. forward pass 3. backward

Слайд 3

Computational graph

*

+

*-1

exp

+1

 

x

w0

 

w1

Computational graph * + *-1 exp +1 x w0 w1

Слайд 4

Example 1. Sigmoid

*

+

*-1

exp

+1

 

x

w0

 

 

The Chain Rule

w1

Example 1. Sigmoid * + *-1 exp +1 x w0 The Chain Rule w1

Слайд 5

Example 1. Sigmoid

*

+

*-1

exp

+1

 

x

 

w0

w1

 

The Chain Rule

Example 1. Sigmoid * + *-1 exp +1 x w0 w1 The Chain Rule

Слайд 6

Staged computation

*

+

 

x

w0

w1

 

Staged computation * + x w0 w1

Слайд 7

Gradient checking

 

Gradient checking

Слайд 8

Patterns

*

+

*3

x

y

z

max

 

Patterns * + *3 x y z max

Слайд 9

Patterns

*

+

*3

max

x

y

z

 

Patterns * + *3 max x y z

Слайд 10

Example 2. Матрицы

 

 

 

+

-

 

 

 

 

 

 

 

 

 

Example 2. Матрицы + -

Слайд 11

Example 2. Матрицы

Если Z = XY,  то зная dZ имеем:
далее dx =

Example 2. Матрицы Если Z = XY, то зная dZ имеем: далее
df / dx
dY = XTdZ
dX = dZYT
Dimension analysis
X и dX должны иметь одинаковую размерность
Неплохое объяснение
http://cs231n.stanford.edu/vecDerivs.pdf

Слайд 12

Example 3. Simple NN

 

 

 

 

 

 

+

 

 

 

 

+

 

 

 

 

L

 

Example 3. Simple NN + + L

Слайд 13

Example 4. Softmax

 

Example 4. Softmax

Слайд 14

Example 4. Softmax

 

Example 4. Softmax

Слайд 15

На практике backprop для softmax и cross-entropy loss обычно считают вместе
В таком

На практике backprop для softmax и cross-entropy loss обычно считают вместе В
случае получается очень простая формула для градиента