2-26-Self-Attention with Relative Position Representations

  • Post author:
  • Post category:其他



原文链接  : https://dengbocong.blog.csdn.net/article/details/107939242

Transformer与递归和卷积神经网络相反,它没有在其结构中显式地建模相对或绝对位置信息,而是它需要在其输入中添加绝对位置的表示,这是一种完全依赖于注意力机制的方法。

本文提出了一种将

相对位置表示

形式并入Transformer自注意机制的有效方法,残差连接有助于将位置信息传播到更高的层。

循环神经网络(RNN)通常根据时间 t 的输入和先前的隐藏状态 计算隐藏状态 h t 直接通过其顺序结构沿时间维度捕获相对位置和绝对位置。非循环模型不必一定要顺序考虑输入元素,因此可能需要显式编码位置信息才能使用序列顺序。

一种常见的方法是使用与输入元素结合的位置编码,以将位置信息公开给模型。这些位置编码可以是位置的确定性函数或学习的表示形式。比如,卷积神经网络捕获每个卷积内核大小内的相对位置,已被证明仍然受益于位置编码。