Sequence to sequence. Модели и механизм внимания

Март 3, 2021

Главная
Информатика
Sequence to sequence. Модели и механизм внимания

Содержание

2. План лекции Задачи Sequence to Sequence Архитектура энкодер-декодер Механизм внимания Tips & Tricks Разбор примера Machine
3. RNN Recap
4. RNN Recap len(input) != len(output)
5. Задачи Sequence to Sequence Распознавание речи (spectrum -> text) Синтез речи (text -> waveform) Рукописный ввод
6. Speech recognition
7. Speech Synthesis
8. Рукописный ввод
9. Задача перевода Rosetta Stone ---> Параллельный корпус, найден в 1799 г. Позволил расшифровать египетские иероглифы
11. Чатботы
12. RNN Sequence-to-sequence model Google, Sutskever et al. 2014 Encoder Decoder https://arxiv.org/pdf/1409.3215.pdf
13. RNN Sequence-to-sequence model Cho et al. 2014 Encoder (same) Decoder https://www.aclweb.org/anthology/D14-1179
14. RNN Sequence-to-sequence model Улучшения: Deep Encoder Deep Decoder LSTM Layer 1 LSTM Layer 2 LSTM Layer
15. RNN Sequence-to-sequence model Улучшения: Bidirectional Encoder Forward LSTM Backward LSTM
16. RNN Sequence-to-sequence model Проблемы: Размер стейта фиксирован Изменения из начала последовательности затираются Не все входные токены
17. RNN Sequence-to-sequence model Решение: Внимание
18. Механизм внимания, мотивация Xu et al. 2015 Show, Attend and Tell: Neural Image Caption Generation with
20. Soft vs Hard Attention Hard Выбор одной/n областей Получаем сэмплингом из softmax Не дифференцируем Нужно учить
21. Механизм внимания, мотивация В случае машинного перевода
22. Механизм внимания, alignment
23. Механизм внимания, мотивация https://github.com/google/seq2seq
24. Механизм внимания https://arxiv.org/pdf/1409.0473.pdf
25. Механизм внимания Bahdanau et al. 2014 https://arxiv.org/pdf/1409.0473.pdf
26. Механизм внимания Bahdanau et al. 2014 Карта внимания или alignment слов https://arxiv.org/pdf/1409.0473.pdf
27. Механизм внимания Bahdanau et al. 2014 https://arxiv.org/pdf/1409.0473.pdf
28. Attention function Dot Product General Additive
29. Практические нюансы Wordpiece models and character-based models Pretrained embeddings Multihead Attention Teacher Forcing Beam Search
30. Проблемы словаря большой размер эмбеддингов и софтмакс слоя (сотни тысяч) неизвестные слова при инференсе, приходится заменять
31. Pretrained embeddings
32. Wordpiece models, BPE - byte-pair encoding
33. Multihead Attention
34. Teacher Forcing Подаем на вход декодера не прошлый выход, а верный символ из таргета
35. Beam Search
36. Beyond attention Attention позволяет построить текущее состояние с учетом всего прошлого последовательности. Одинаково хорошо учитывает данные
37. Transformer Attention is all you need, Vaswani et al. 2017 https://arxiv.org/abs/1706.03762 Self-attention instead of recurrence
38. Positional encoding Sinusoidal encoding 2. Learned positional embeddings. Position index -> embedding layer -> vector
40. Скачать презентацию

План лекции
Задачи Sequence to Sequence
Архитектура энкодер-декодер
Механизм внимания
Tips & Tricks
Разбор примера Machine Translation

RNN Recap

RNN Recap
len(input) != len(output)

Задачи Sequence to Sequence
Распознавание речи (spectrum -> text)
Синтез речи (text -> waveform)
Рукописный

ввод (image sequence -> text)
Машинный перевод (text -> text)
Чатботы (text -> text)
Суммаризация (text -> text)

Speech recognition

Speech Synthesis

Рукописный ввод

Задача перевода
Rosetta Stone --->
Параллельный корпус, найден в 1799 г.
Позволил расшифровать
египетские

иероглифы

Чатботы

RNN Sequence-to-sequence model
Google, Sutskever et al. 2014
Encoder
Decoder
https://arxiv.org/pdf/1409.3215.pdf

RNN Sequence-to-sequence model
Cho et al. 2014
Encoder (same)
Decoder
https://www.aclweb.org/anthology/D14-1179

RNN Sequence-to-sequence model
Улучшения:
Deep Encoder
Deep Decoder
LSTM Layer 1
LSTM Layer 2
LSTM Layer 3

RNN Sequence-to-sequence model
Улучшения:
Bidirectional Encoder
Forward LSTM
Backward LSTM

RNN Sequence-to-sequence model
Проблемы:
Размер стейта фиксирован
Изменения из начала последовательности затираются
Не все входные токены

одинаково значимы
Просто взять стейты со всех шагов декодера - слишком много данных

RNN Sequence-to-sequence model
Решение:
Внимание

Механизм внимания, мотивация
Xu et al. 2015
Show, Attend and Tell:
Neural Image Caption

Generation
with Visual Attention.

https://arxiv.org/abs/1502.03044

Soft vs Hard Attention
Hard
Выбор одной/n областей
Получаем сэмплингом из softmax
Не дифференцируем
Нужно учить с

помощью RL
А значит тяжело учится

Soft
Взвешенная сумма областей
Дифференцируемый
А значит обучаем через backprop

Механизм внимания, мотивация
В случае машинного перевода

Механизм внимания, alignment

Механизм внимания, мотивация
https://github.com/google/seq2seq

Механизм внимания
https://arxiv.org/pdf/1409.0473.pdf

Механизм внимания
Bahdanau et al. 2014
https://arxiv.org/pdf/1409.0473.pdf

Механизм внимания
Bahdanau et al. 2014
Карта внимания или alignment слов
https://arxiv.org/pdf/1409.0473.pdf

Механизм внимания
Bahdanau et al. 2014
https://arxiv.org/pdf/1409.0473.pdf

Attention function
Dot Product
General
Additive

Практические нюансы
Wordpiece models and character-based models
Pretrained embeddings
Multihead Attention
Teacher Forcing
Beam Search

Проблемы словаря
большой размер эмбеддингов и софтмакс слоя (сотни тысяч)
неизвестные слова при инференсе,

приходится заменять на UNKNOWN токен
Решение
Давайте разбивать предложения на характерные части, которые меньше чем слово, но больше чем буква.
Идея пришла из сегментации корейских и японских предложений, где нет явной границы между словами.

Wordpiece models

Слайд 31

Pretrained embeddings

Слайд 32

Wordpiece models, BPE - byte-pair encoding

Слайд 33

Multihead Attention

Слайд 34

Teacher Forcing
Подаем на вход декодера не прошлый выход,
а верный символ из таргета

Слайд 35

Beam Search

Слайд 36

Beyond attention
Attention позволяет построить текущее состояние с учетом всего прошлого последовательности.
Одинаково

хорошо учитывает данные как из далекого прошлого, так и близкого.
Как правило не содержит информации об относительном расположении определенных данных в последовательности, но это решаемо.
Зачем тогда RNN, которая обновляет стейт последовательно и потому хуже учитывает далекое прошлое?

Sequence to sequence. Модели и механизм внимания

Содержание

План лекцииЗадачи Sequence to SequenceАрхитектура энкодер-декодерМеханизм вниманияTips & TricksРазбор примера Machine Translation

RNN Recap

RNN Recaplen(input) != len(output)

Задачи Sequence to SequenceРаспознавание речи (spectrum -> text)Синтез речи (text -> waveform)Рукописный

Speech recognition

Speech Synthesis

Рукописный ввод

Задача перевода Rosetta Stone --->Параллельный корпус, найден в 1799 г.Позволил расшифровать египетские

Чатботы

RNN Sequence-to-sequence modelGoogle, Sutskever et al. 2014EncoderDecoder https://arxiv.org/pdf/1409.3215.pdf

RNN Sequence-to-sequence modelCho et al. 2014Encoder (same)Decoder https://www.aclweb.org/anthology/D14-1179

RNN Sequence-to-sequence modelУлучшения:Deep EncoderDeep DecoderLSTM Layer 1LSTM Layer 2LSTM Layer 3

RNN Sequence-to-sequence modelУлучшения:Bidirectional EncoderForward LSTMBackward LSTM

RNN Sequence-to-sequence modelПроблемы:Размер стейта фиксированИзменения из начала последовательности затираютсяНе все входные токены

RNN Sequence-to-sequence modelРешение: Внимание

Механизм внимания, мотивацияXu et al. 2015Show, Attend and Tell: Neural Image Caption

Soft vs Hard AttentionHardВыбор одной/n областейПолучаем сэмплингом из softmaxНе дифференцируемНужно учить с

Механизм внимания, мотивацияВ случае машинного перевода

Механизм внимания, alignment

Механизм внимания, мотивацияhttps://github.com/google/seq2seq

Механизм вниманияhttps://arxiv.org/pdf/1409.0473.pdf

Механизм вниманияBahdanau et al. 2014https://arxiv.org/pdf/1409.0473.pdf

Механизм вниманияBahdanau et al. 2014Карта внимания или alignment словhttps://arxiv.org/pdf/1409.0473.pdf

Механизм вниманияBahdanau et al. 2014https://arxiv.org/pdf/1409.0473.pdf

Attention functionDot ProductGeneralAdditive

Практические нюансыWordpiece models and character-based modelsPretrained embeddingsMultihead AttentionTeacher ForcingBeam Search

Проблемы словарябольшой размер эмбеддингов и софтмакс слоя (сотни тысяч)неизвестные слова при инференсе,

Pretrained embeddings

Wordpiece models, BPE - byte-pair encoding

Multihead Attention

Teacher ForcingПодаем на вход декодера не прошлый выход,а верный символ из таргета

Beam Search

Beyond attentionAttention позволяет построить текущее состояние с учетом всего прошлого последовательности. Одинаково

TransformerAttention is all you need, Vaswani et al. 2017https://arxiv.org/abs/1706.03762Self-attention instead of recurrence

Positional encodingSinusoidal encoding2. Learned positional embeddings. Position index -> embedding layer -> vector

Похожие презентации

План лекции
Задачи Sequence to Sequence
Архитектура энкодер-декодер
Механизм внимания
Tips & Tricks
Разбор примера Machine Translation

RNN Recap
len(input) != len(output)

Задачи Sequence to Sequence
Распознавание речи (spectrum -> text)
Синтез речи (text -> waveform)
Рукописный

Задача перевода
Rosetta Stone --->
Параллельный корпус, найден в 1799 г.
Позволил расшифровать
египетские

RNN Sequence-to-sequence model
Google, Sutskever et al. 2014
Encoder
Decoder
https://arxiv.org/pdf/1409.3215.pdf

RNN Sequence-to-sequence model
Cho et al. 2014
Encoder (same)
Decoder
https://www.aclweb.org/anthology/D14-1179

RNN Sequence-to-sequence model
Улучшения:
Deep Encoder
Deep Decoder
LSTM Layer 1
LSTM Layer 2
LSTM Layer 3

RNN Sequence-to-sequence model
Улучшения:
Bidirectional Encoder
Forward LSTM
Backward LSTM

RNN Sequence-to-sequence model
Проблемы:
Размер стейта фиксирован
Изменения из начала последовательности затираются
Не все входные токены

RNN Sequence-to-sequence model
Решение:
Внимание

Механизм внимания, мотивация
Xu et al. 2015
Show, Attend and Tell:
Neural Image Caption

Soft vs Hard Attention
Hard
Выбор одной/n областей
Получаем сэмплингом из softmax
Не дифференцируем
Нужно учить с

Механизм внимания, мотивация
В случае машинного перевода

Механизм внимания, мотивация
https://github.com/google/seq2seq

Механизм внимания
https://arxiv.org/pdf/1409.0473.pdf

Механизм внимания
Bahdanau et al. 2014
https://arxiv.org/pdf/1409.0473.pdf

Механизм внимания
Bahdanau et al. 2014
Карта внимания или alignment слов
https://arxiv.org/pdf/1409.0473.pdf

Механизм внимания
Bahdanau et al. 2014
https://arxiv.org/pdf/1409.0473.pdf

Attention function
Dot Product
General
Additive

Практические нюансы
Wordpiece models and character-based models
Pretrained embeddings
Multihead Attention
Teacher Forcing
Beam Search

Проблемы словаря
большой размер эмбеддингов и софтмакс слоя (сотни тысяч)
неизвестные слова при инференсе,

Teacher Forcing
Подаем на вход декодера не прошлый выход,
а верный символ из таргета

Beyond attention
Attention позволяет построить текущее состояние с учетом всего прошлого последовательности.
Одинаково

Transformer
Attention is all you need, Vaswani et al. 2017
https://arxiv.org/abs/1706.03762
Self-attention instead of recurrence

Positional encoding
Sinusoidal encoding
2. Learned positional embeddings. Position index -> embedding layer -> vector