重学Attention

Post author:xfxia
Post published:2023年7月23日
Post category:其他

注意力机制对比RNN

主要解决了RNN无法并行，并且不能解决长序列依赖问题

所以为什么设计

Q K V这三个矩阵一边来是让 K == V的

首先通过Q 和 K点击计算Attention矩阵，这个矩阵表明的是V上每一个特征与Q的相关程度，相关程度高的，权重就大一点，相关程度低的权重就低一点

自注意力的Q K V来来源相同

在这里插入图片描述

自注意力的创新性在这里就完美的体现出来了，同一句话，哪些词对making的作用就体现出来了对吧

Masked-Self-Attention

在这里插入图片描述

Masked-Self-Attention就是在解码器阶段，每次生成一个词，不能知道后面的信息，只知道前面的信息

再讲解一下Multi-Head-Attention

其实我现在的感觉Multi-Head的概念和通道数相同

现在假设有16个字，16个字可以被映射的16维度，那么输入的矩阵是16 * 16的

那么八头就是变成了 8 个 16 * 2的矩阵。

对应到CNN的通道数进去，就变成了了RGB三个通道。对应三个通道去提取特征

位置编码

在这里插入图片描述

位置编码存在的意义，就是给单词加上词序的信息

他可以变成一个线性组合

这个是Transformer的架构

先说一下Decoder提供的是K V

我们知道，我们是去从K V中，依靠问题Q去寻找合适的的信息对吧。所以问题Q就要被输入Decoder，因为Decoder是执行者。Encoder只能只是信息的承载着。

再说一下为什么Decoder部分要用Masked

我们知道，比如机器翻译这个领域，或者文本生成领域，只能依靠前面的信息，去生成下一个字而不能通过下一个字去获得信息。

原文链接：https://blog.csdn.net/qq_36309174/article/details/128747199

位置编码

你可能也喜欢