分类任务
实验设置
属性 | 内容 |
数据集名称 | 随机数矩阵 |
平均文本长度 | 30 |
设备 | GTX 1080 Ti(11G) |
batchsize |
258 |
batchnum | 100 |
优化器 | Adamw |
实验结果
模型 | 参数设置 | 参数量 | 推断时间/batch(s) | 训练时间/batch(s) |
Transformer_encoder_dnn |
d_model=dim_word, nhead=8,num_head=6 |
32.13M | 0.0427s | 0.2134s |
CNN_maxpool_dnn |
k_num[512,512,512], width=[3,4,5], stride=[1,1,1] |
4.64M | 0.0396 s | 0.0111 s |
GRU_dnn | 512 | 1.96M | 0.0117s | 0.0058s |
RNN具有记忆功能,被遍历的单元具有因果联系作用(记忆信息传送),上一时刻隐层的状态参与到了这个时刻的计算过程中,这句话的举例说明就是第一个单元计算的结果会作为第二个单元输入的一部分,所以,当前单元必须等上一单元计算结束,有多少单元就需要计算多少次。
CNN同一层次单元没有因果关系都是等价的,这样就可以依据单元核直接复制出所需所有单元核(参数相同),然后采用矩阵并行运算,只需计算一次。
版权声明:本文为m0_37050445原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。