文章标题

  • Post author:
  • Post category:其他


论文笔记:层次化注意力机制

Paper:


Hierarchical Attention Networks for Document Classification


(NAACL 2016)
今天介绍这篇文章是来自于cmu的zichao yang的paper,其实这篇paper在我还在msra实习的时候就已经读过了,只是最近跟几个搞speech的师兄师姐聊了一下,发现他们都在设法将注意力机制引入到ASR(automatically speech recognition)和TTS(text to speech)等任务上,我这才想到重新温习一下这篇paper
介绍paper的内容之前呢,先来大致了解一下注意力机制(attention mechanism)。attention这个东西最早是出现在Bahdanau等人的paper[1]中,论文的主题是机器翻译,attention广泛应用在基于encoder-decoder的神经机器翻译模型中。如果大家有兴趣,可以去看一下acl2016关于神经机器翻译的

tutorial

,里面介绍神经机器翻译的发展和最近几年在机器翻译领域里面很火的sequence to sequence learning[2]。attention的用途呢,主要有。

[1] Bahdanau, Dzmitry, Kyunghyun Cho, and Yoshua Bengio. “Neural machine translation by jointly learning to align and translate.” arXiv preprint arXiv:1409.0473 (2014).

[2] Sutskever, Ilya, Oriol Vinyals, and Quoc V. Le. “Sequence to sequence learning with neural networks.” Advances in neural information processing systems. 2014.



版权声明:本文为u010551621原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。