模型性能对比

分类任务

模型	参数设置	参数量	推断时间/batch(s)	训练时间/batch(s)
Transformer_encoder_dnn	d_model=dim_word, nhead=8,num_head=6	32.13M	0.0427s	0.2134s
CNN_maxpool_dnn	k_num[512,512,512], width=[3,4,5], stride=[1,1,1]	4.64M	0.0396 s	0.0111 s
GRU_dnn	512	1.96M	0.0117s	0.0058s

RNN具有记忆功能，被遍历的单元具有因果联系作用(记忆信息传送)，上一时刻隐层的状态参与到了这个时刻的计算过程中，这句话的举例说明就是第一个单元计算的结果会作为第二个单元输入的一部分，所以，当前单元必须等上一单元计算结束，有多少单元就需要计算多少次。

CNN同一层次单元没有因果关系都是等价的，这样就可以依据单元核直接复制出所需所有单元核(参数相同)，然后采用矩阵并行运算，只需计算一次。