Seq2Seq,attention机制的一些问题及解决方案

  • Post author:
  • Post category:其他



目录

– 1. PixelRNN

– 2. Conditional Sequence Generation

– 2.1 在每次time step考虑Context

– 2.2 Dynamic Conditional Generation

– 2.1.1 Attention可用于可视化

– 2.1.2 Memory Network

– 2.2.3 Neural Turing Machine ?

– 3. Tips of Attention

– 3.1 Attention Regularization

– 3.2 训练测试标签不匹配——Scheduled Sampling

– 3.3 Scheduled Sampling

– 3.4 贪婪策略?——Beam Search

– 3.5 直接输入上一步输出分布有没有用?

– 3.6 目标函数设计,全局还是局部?


概述

在生成模型中,rnn容易遗忘早期的信息,以及无法顾及历史输出等context信息,所以常见的方法是在time step每次输入context vector。

  • encoder decoder框架
  • Attention及一些应用
  • Attention机制在seq2seq的很多问题。


1. PixelRNN

考虑空间关系的RNN,它的直觉如左图,它不仅考虑序列关系,还考虑像素的的空间关系,它的模型,看起来是空间版的LSTM,感觉会很难实现。


2. Conditional Sequence Generation

因为LSTM短期记忆性,实际上我们想要模型更好考虑背景知识。以下两个例子。



版权声明:本文为CsWarmSun原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。