Sequence to sequence. Модели и механизм внимания

Содержание

Слайд 2

План лекции

Задачи Sequence to Sequence
Архитектура энкодер-декодер
Механизм внимания
Tips & Tricks
Разбор примера Machine Translation

План лекции Задачи Sequence to Sequence Архитектура энкодер-декодер Механизм внимания Tips &

Слайд 3

RNN Recap

RNN Recap

Слайд 4

RNN Recap

len(input) != len(output)

RNN Recap len(input) != len(output)

Слайд 5

Задачи Sequence to Sequence

Распознавание речи (spectrum -> text)
Синтез речи (text -> waveform)
Рукописный

Задачи Sequence to Sequence Распознавание речи (spectrum -> text) Синтез речи (text
ввод (image sequence -> text)
Машинный перевод (text -> text)
Чатботы (text -> text)
Суммаризация (text -> text)

Слайд 6

Speech recognition

Speech recognition

Слайд 7

Speech Synthesis

Speech Synthesis

Слайд 8

Рукописный ввод

Рукописный ввод

Слайд 9

Задача перевода

Rosetta Stone --->
Параллельный корпус, найден в 1799 г.
Позволил расшифровать
египетские

Задача перевода Rosetta Stone ---> Параллельный корпус, найден в 1799 г. Позволил расшифровать египетские иероглифы
иероглифы

Слайд 11

Чатботы

Чатботы

Слайд 12

RNN Sequence-to-sequence model

Google, Sutskever et al. 2014
Encoder
Decoder

https://arxiv.org/pdf/1409.3215.pdf

RNN Sequence-to-sequence model Google, Sutskever et al. 2014 Encoder Decoder https://arxiv.org/pdf/1409.3215.pdf

Слайд 13

RNN Sequence-to-sequence model

Cho et al. 2014
Encoder (same)
Decoder

https://www.aclweb.org/anthology/D14-1179

RNN Sequence-to-sequence model Cho et al. 2014 Encoder (same) Decoder https://www.aclweb.org/anthology/D14-1179

Слайд 14

RNN Sequence-to-sequence model

Улучшения:
Deep Encoder
Deep Decoder

LSTM Layer 1

LSTM Layer 2

LSTM Layer 3

RNN Sequence-to-sequence model Улучшения: Deep Encoder Deep Decoder LSTM Layer 1 LSTM

Слайд 15

RNN Sequence-to-sequence model

Улучшения:
Bidirectional Encoder

Forward LSTM

Backward LSTM

RNN Sequence-to-sequence model Улучшения: Bidirectional Encoder Forward LSTM Backward LSTM

Слайд 16

RNN Sequence-to-sequence model

Проблемы:
Размер стейта фиксирован
Изменения из начала последовательности затираются
Не все входные токены

RNN Sequence-to-sequence model Проблемы: Размер стейта фиксирован Изменения из начала последовательности затираются
одинаково значимы
Просто взять стейты со всех шагов декодера - слишком много данных

Слайд 17

RNN Sequence-to-sequence model

Решение:
Внимание

RNN Sequence-to-sequence model Решение: Внимание

Слайд 18

Механизм внимания, мотивация

Xu et al. 2015
Show, Attend and Tell:
Neural Image Caption

Механизм внимания, мотивация Xu et al. 2015 Show, Attend and Tell: Neural
Generation
with Visual Attention.

https://arxiv.org/abs/1502.03044

Слайд 20

Soft vs Hard Attention

Hard
Выбор одной/n областей
Получаем сэмплингом из softmax
Не дифференцируем
Нужно учить с

Soft vs Hard Attention Hard Выбор одной/n областей Получаем сэмплингом из softmax
помощью RL
А значит тяжело учится

Soft
Взвешенная сумма областей
Дифференцируемый
А значит обучаем через backprop

Слайд 21

Механизм внимания, мотивация

В случае машинного перевода

Механизм внимания, мотивация В случае машинного перевода

Слайд 22

Механизм внимания, alignment

Механизм внимания, alignment

Слайд 23

Механизм внимания, мотивация

https://github.com/google/seq2seq

Механизм внимания, мотивация https://github.com/google/seq2seq

Слайд 24

Механизм внимания

https://arxiv.org/pdf/1409.0473.pdf

Механизм внимания https://arxiv.org/pdf/1409.0473.pdf

Слайд 25

Механизм внимания

Bahdanau et al. 2014

https://arxiv.org/pdf/1409.0473.pdf

Механизм внимания Bahdanau et al. 2014 https://arxiv.org/pdf/1409.0473.pdf

Слайд 26

Механизм внимания

Bahdanau et al. 2014
Карта внимания или alignment слов

https://arxiv.org/pdf/1409.0473.pdf

Механизм внимания Bahdanau et al. 2014 Карта внимания или alignment слов https://arxiv.org/pdf/1409.0473.pdf

Слайд 27

Механизм внимания

Bahdanau et al. 2014

https://arxiv.org/pdf/1409.0473.pdf

Механизм внимания Bahdanau et al. 2014 https://arxiv.org/pdf/1409.0473.pdf

Слайд 28

Attention function

Dot Product
General
Additive

Attention function Dot Product General Additive

Слайд 29

Практические нюансы

Wordpiece models and character-based models
Pretrained embeddings
Multihead Attention
Teacher Forcing
Beam Search

Практические нюансы Wordpiece models and character-based models Pretrained embeddings Multihead Attention Teacher Forcing Beam Search

Слайд 30

Проблемы словаря
большой размер эмбеддингов и софтмакс слоя (сотни тысяч)
неизвестные слова при инференсе,

Проблемы словаря большой размер эмбеддингов и софтмакс слоя (сотни тысяч) неизвестные слова
приходится заменять на UNKNOWN токен
Решение
Давайте разбивать предложения на характерные части, которые меньше чем слово, но больше чем буква.
Идея пришла из сегментации корейских и японских предложений, где нет явной границы между словами.

Wordpiece models

Слайд 31

Pretrained embeddings

Pretrained embeddings

Слайд 32

Wordpiece models, BPE - byte-pair encoding

Wordpiece models, BPE - byte-pair encoding

Слайд 33

Multihead Attention

Multihead Attention

Слайд 34

Teacher Forcing

Подаем на вход декодера не прошлый выход,
а верный символ из таргета

Teacher Forcing Подаем на вход декодера не прошлый выход, а верный символ из таргета

Слайд 35

Beam Search

Beam Search

Слайд 36

Beyond attention

Attention позволяет построить текущее состояние с учетом всего прошлого последовательности.
Одинаково

Beyond attention Attention позволяет построить текущее состояние с учетом всего прошлого последовательности.
хорошо учитывает данные как из далекого прошлого, так и близкого.
Как правило не содержит информации об относительном расположении определенных данных в последовательности, но это решаемо.
Зачем тогда RNN, которая обновляет стейт последовательно и потому хуже учитывает далекое прошлое?

Слайд 37

Transformer

Attention is all you need, Vaswani et al. 2017
https://arxiv.org/abs/1706.03762
Self-attention instead of recurrence

Transformer Attention is all you need, Vaswani et al. 2017 https://arxiv.org/abs/1706.03762 Self-attention instead of recurrence

Слайд 38

Positional encoding

Sinusoidal encoding
2. Learned positional embeddings. Position index -> embedding layer -> vector

Positional encoding Sinusoidal encoding 2. Learned positional embeddings. Position index -> embedding layer -> vector
Имя файла: Sequence-to-sequence.-Модели-и-механизм-внимания.pptx
Количество просмотров: 35
Количество скачиваний: 0