Abstract:
最近,许多即插即用的自注意力模块被提出,以通过利用深度卷积神经网络(CNN)的内部信息来增强模型通用性。先前的工作着重于针对特定功能的注意力模块的设计,例如轻量级或面向任务的注意力。但是,他们忽略了在
哪里插入注意力模块的重要性
,因为它们将模块与整个CNN骨干网的每个模块分别连接,这是理所当然的,随着网络深度的增加,导致计算成本和参数数量的增加。因此,我们提出了一个称为高效注意力网络(EAN)的框架,以提高现有注意力模块的效率。在EAN中,我们利用共享机制在骨干网中共享关注模块,并通过强化学习搜索将共享关注模块连接到何处。最后,我们获得了主干网和模块之间连接稀疏的注意力网络,同时(1)保持准确性(2)减少额外的参数增量和(3)加速推理。在广泛使用的基准和大众关注网络上进行的大量实验证明了EAN的有效性。此外,我们从实验上说明,我们的EAN具有转移到其他任务和捕获信息功能的能力。
版权声明:本文为weixin_42096202原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。