Seq2Seq，attention机制的一些问题及解决方案

– 1. PixelRNN

– 2. Conditional Sequence Generation

– 2.1 在每次time step考虑Context

– 2.2 Dynamic Conditional Generation

– 2.1.1 Attention可用于可视化

– 2.1.2 Memory Network

– 2.2.3 Neural Turing Machine ？

– 3. Tips of Attention

– 3.1 Attention Regularization

– 3.2 训练测试标签不匹配——Scheduled Sampling

– 3.3 Scheduled Sampling

– 3.4 贪婪策略？——Beam Search

– 3.5 直接输入上一步输出分布有没有用？

– 3.6 目标函数设计，全局还是局部？

概述

在生成模型中，rnn容易遗忘早期的信息，以及无法顾及历史输出等context信息，所以常见的方法是在time step每次输入context vector。

1. PixelRNN

考虑空间关系的RNN，它的直觉如左图，它不仅考虑序列关系，还考虑像素的的空间关系，它的模型，看起来是空间版的LSTM，感觉会很难实现。

2. Conditional Sequence Generation

因为LSTM短期记忆性，实际上我们想要模型更好考虑背景知识。以下两个例子。