CBAM

我们提出了卷积块注意力模块（CBAM），这是一个简单而有效的前馈卷积神经网络的注意力模块。给定一个中间特征图，我们的模块沿着通道和空间两个独立的维度依次推导注意力图，然后将注意力图乘以输入的特征图，进行自适应的特征细化。由于CBAM是一个轻量级的通用模块，它可以无缝集成到任何CNN架构中，开销可以忽略不计，并且可以和基础CNN一起进行端到端训练。我们通过在ImageNet-1K、MS COCO检测和VOC 2007检测数据集上的大量实验来验证我们的CBAM。我们的实验表明，各种模型在分类和检测性能上都有一致的改进，证明了CBAM的广泛适用性。代码和模型将公开提供。

1 Introduction

卷积神经网络(CNN)基于其丰富的表示能力，极大地推动了视觉任务的性能[1-3]。为了提高CNN的性能，近来的研究主要研究了网络的三个重要因素：深度、宽度和cardinality。

从LeNet架构[4]到Residual-style Networks[5-8]，到目前为止，网络变得更深以获得丰富表现力。VGGNet[9]表明，堆叠相同形状的块可以得到不错的结果。遵循同样的思想，ResNet[5]将相同拓扑结构的residual blocks与skip connection一起堆叠，建立了一个极深的架构。GoogLeNet[10]表明，宽度是提高模型性能的另一个重要因素。Zagoruyko和Komodakis[6]提出在ResNet架构的基础上增加网络的宽度。他们已经表明，增加宽度的28层ResNet在CIFAR基准上可以优于1001层的极深ResNet。Xception[11]和ResNeXt[7]提出来增加网络的cardinality。他们实证表明，cardinality不仅节省了参数总数，而且比其他两个因素：深度和宽度带来了更强的表示能力。

除了这些因素外，我们还研究了网络架构设计的另一个方面–注意力机制。注意力的重要性在以往的文献中已经得到了广泛的研究[12-17]。注意力不仅能告诉人们关注的方向，还能提高感兴趣区域的表征。我们的目标是通过使用注意力机制来提高特征表达能力：关注重要的特征，抑制不必要的特征。在本文中，我们提出了一种新的网络模块，命名为 “卷积块注意力模块”。

由于卷积运算是通过混合跨通道和空间信息来提取信息特征的，所以我们采用我们的模块来强调沿着通道和空间轴(spatial axes)这两个主要维度的有意义特征。为了实现这一点，我们依次应用通道和空间注意模块（如图1所示），使得每个分支可以分别学习在通道和空间轴(spatial axes)上要重点关注的‘what’ and ‘where’。因此，我们的模块通过学习强调或抑制这些信息来有效地帮助网络中的信息流动。

在ImageNet-1K数据集中，我们通过插入我们的轻量级模块，从各种基线网络中获得了准确率的提升，揭示了CBAM的功效.我们使用grad-CAM[18]将训练好的模型可视化，并观察到CBAM-enhanced网络比其基线网络更准确地聚焦于目标对象。考虑到这一点，我们推测性能的提升来自于准确的注意力和减少不相关杂物的噪声。最后，我们在MS COCO和VOC 2007数据集上验证了目标检测的性能提升，证明了CBAM的广泛适用性。由于我们精心设计了我们的模块变得轻量级，在大多数情况下，参数和计算的开销可以忽略不计。

贡献。我们的主要贡献有三个方面：

我们提出了一种简单而有效的注意力模块(CBAM)，可以广泛应用于提升CNNs的表示能力。
我们通过广泛的消融研究来验证注意力模块的有效性。
我们通过插入我们的轻量级模块，验证了在多个基准上（ImageNet-1K、MS COCO和VOC 2007），各种网络的性能得到了极大的提升。

2 Related Work

Network engineering.

“Network engineering “一直是最重要的视觉研究之一，因为设计良好的网络可以保证各种应用中性能的显著提高。自从成功实现大规模CNN[19]以来，已经提出了多种架构。一个直观而简单的扩展方式是增加神经网络的深度[9]。Szegedy等人[10]介绍了一种使用多分支架构的深度Inception网络，每个分支都是精心定制的。简单的增加深度会因为梯度传播的困难而达到饱和，而ResNet[5]则提出了一种简单的identity skip-connection来缓解深度网络的优化问题。基于ResNet架构，人们开发了WideResNet[6]、Inception-ResNet[8]和ResNeXt[7]等多种模型。WideResNet[6]提出了卷积滤波器数量较多、深度减小的残差网络。PyramidNet[20]是WideResNet的strict generalization，网络的宽度逐渐增加。ResNeXt[7]建议使用分组卷积，并表明增加cardinality可以带来更好的分类精度。最近，Huang等人[21]提出了一种新的架构DenseNet。它将输入特征与输出特征进行迭代连接，使得每个卷积块都能接收到来自之前所有块的原始信息。

最近的神经网络工程方法主要针对深度[19，9，10，5]，宽度[10，22，6，8]和cardinality[7，11]这三个因素，而我们关注的是另一个方面，“注意力”，这是人类视觉系统的一个奇特的方面

。

Attention mechanism.

众所周知，注意力在人类的感知中起着重要的作用[23-25]。人类视觉系统的一个重要属性是，人们不会试图一次性处理整个场景。相反，人类利用一连串的局部瞥见，有选择地关注突出的部分，以便更好地捕捉视觉结构[26]。

最近，已经有一些尝试[27，28]将注意力处理加入到CNN中，以提高CNN在大规模分类任务中的性能。Wang等[27]提出了Residual注意力网络，该网络使用了编码器-解码器式的注意力模块。通过完善特征图，该网络不仅性能良好，而且对噪声输入也很健壮。我们没有直接计算3d注意力图，而是将学习通道注意力和空间注意力的过程分别分解。3D特征图的独立注意力生成过程的计算和参数开销要小得多，因此可以作为一个即插即用的模块用于已有的基础CNN架构。

更接近我们的工作，Hu等人[28]引入了一个紧凑的模块来利用通道间的关系。在他们的Squeeze-and-Excitation模块中，他们使用全局平均池化特征来计算通道间的注意力。然而，我们表明，为了推断精细的通道注意力，这些都是次优的特征，我们建议也使用max pooled特征。它们还忽略了空间注意力，如[29]所示，空间注意力在决定注意力”在哪里 “起着重要作用。在我们的CBAM中，我们基于一个有效的体系结构同时利用了空间和通道注意力，并通过经验验证了利用两者都优于仅使用通道注意力[28]。此外，我们的经验表明，我们的模块对检测任务是有效的（MS-COCO和VOC）。特别是，我们只需将我们的模块放在VOC2007测试集中现有的one-shot探测器[30]之上，就可以获得最先进的性能。

3 Convolutional Block Attention Module

在这里插入图片描述

图1：CBAM的概述。该模块有两个顺序的子模块：通道和空间。通过我们的模块（CBAM）在深度网络的每一个卷积块上自适应地完善中间特征图。

给定一个中间特征图

∈

\mathbf F\in\mathbb R^{C\times H\times W}

$F \in R^{C \times H \times W}$

作为输入，CBAM顺序的推断出一维通道道注意图

∈

\mathbf M_c\in\mathbb R^{C\times 1\times 1}

$M_{c} \in R^{C \times 1 \times 1}$

和一个2D空间注意力特征图，

∈

\mathbf M_s\in\mathbb R^{1\times H\times W}

$M_{s} \in R^{1 \times H \times W}$

，如图1所示。整个注意力过程可以概括为：

在这里插入图片描述

其中

\bigotimes

$⨂$

表示element-wise乘法。在乘法过程中，注意力值会被相应地广播（复制）：通道注意力值会沿着空间维度进行广播，反之亦然。

′

\mathbf F”

$F^{''}$

是最终的refined输出。图2描述了每个注意力地图的计算过程。下面介绍每个注意力模块的细节。

在这里插入图片描述

图2：各注意力子模块的示意图。如图所示，通道子模块利用最大池化输出和平均池化输出，共享网络；空间子模块利用类似的两个输出，沿着channel axis进行池化，并将其传递给卷积层。

Channel attention module.

我们通过利用特征的通道间关系来计算通道注意力图。由于特征图的每个通道都被认为是一个特征检测器[31]，因此通道注意力集中在给定输入图像的 “哪些(what)”是有意义的。为了有效地计算通道注意力，我们对输入特征图的空间维度进行了压缩。对于空间信息的聚合，目前普遍采用的是平均池化。Zhou等[32]提出用它来有效学习目标对象的范围，Hu等[28]在其注意力模块中采用它来计算空间统计。在前人的工作之外，我们认为最大池化收集了另一个重要的关于独特对象特征的线索，以推断更精细的channel-wise注意力。因此，我们同时使用平均池化和最大池化特征。我们实证证实，利用这两个特征大大提升了网络的表示能力，而不是各自独立使用（见4.1节），显示了我们设计选择的有效性。我们在下面描述了详细的操作。

我们首先通过使用averagepooling和max-pooling两种操作聚合特征图的空间信息，生成两种不同的空间上下文描述符:

\mathbf F^c_{avg}

$F_{a v g}^{c}$

和

\mathbf F^c_{max}

$F_{m a x}^{c}$

，分别表示平均池化特征和最大池化特征。然后，这两个描述符被传递到共享网络中，以产生我们的通道注意力图

∈

\mathbf M_c\in\mathbb R^{C\times1\times1}

$M_{c} \in R^{C \times 1 \times 1}$

。共享网络由多层感知器（MLP）与一个隐藏层组成。为了降低参数开销，将隐藏激活大小设置为

\mathbb R^{C/r\times1\times1}

$R^{C / r \times 1 \times 1}$

，其中 r 为缩放因子。在共享网络应用于每个描述符后，我们使用元素求和法合并输出的特征向量。简而言之，通道关注度的计算方式为：

在这里插入图片描述

其中

\sigma

$σ$

代表sigmoid函数，

∈

\mathbf W_0\in\mathbb R^{C/r\times C}

$W_{0} \in R^{C / r \times C}$

，

∈

\mathbf W_1\in\mathbb R^{C\times C/r}

$W_{1} \in R^{C \times C / r}$

。需要注意的是，MLP权重

W_0

$W_{0}$

和

W_1

$W_{1}$

是两个输入共享的，ReLU激活函数后面是

W_0

$W_{0}$

。

###########################

Spatial attention module

博客解释：

在这里插入图片描述

###########################

Spatial attention module.

我们利用特征的空间间关系，生成空间注意力图。与通道注意力不同的是，空间注意力关注的 “where “是一个informative part，它是对通道注意力的补充。为了计算空间注意力，我们首先沿channel axis应用平均池化和最大池化操作，并将它们进行concatenate，生成一个有效的特征描述符。事实证明，沿channel axis应用池化操作可以有效地突出信息区域[33]。在concatenated特征描述符上，我们应用卷积层来生成一个空间注意力图

(

)

∈

\mathbf M_s(\mathbf F)\in\mathbf R^{H\times W}

$M_{s} (F) \in R^{H \times W}$

，该图编码了强调或抑制的位置。我们在下面描述详细的操作。

在这里插入图片描述

图3：CBAM与ResNet中的ResBlock集成[5]。该图显示了我们的模块集成在ResBlock中时的准确位置。我们在每个块的卷积输出上应用CBAM。

我们通过使用两个池化操作来聚合一个特征图的通道信息，生成两个2D图：

∈

\mathbf F^s_{avg}\in\mathbb R^{1\times H\times W}

$F_{a v g}^{s} \in R^{1 \times H \times W}$

和

∈

\mathbf F^s_{max}\in\mathbb R^{1\times H\times W}

$F_{m a x}^{s} \in R^{1 \times H \times W}$

。每一个都表示整个通道的平均池化特征和最大池化特征。然后，这些特征会被一个标准卷积层连接和卷积，产生我们的二维空间注意力图。简而言之，空间注意力的计算方式为：

在这里插入图片描述

其中

\sigma

$σ$

代表sigmoid函数，

f^{7\times7}

$f^{7 \times 7}$

代表一个卷积运算，滤波器大小为7 x7。

Arrangement of attention modules.

给定一个输入图像，通道和空间两个注意力模块计算互补的注意力，分别关注 “what “和 “where”。考虑到这一点，两个模块可以以并行或顺序的方式放置。我们发现，顺序排列比平行排列给出的效果更好。对于顺序过程的安排，我们的实验结果表明，通道优先的顺序比空间优先的顺序略好。我们将在第4.1节讨论网络工程的实验结果。

4 Experiments

我们在标准基准上评估CBAM：ImageNet-1K用于图像分类；MS COCO和VOC 2007用于对象检测。为了进行更好的苹果对苹果的比较，我们在PyTorch框架[35]中重现了所有评估过的网络[5-7，34，28]，并报告了我们在整个实验中的重现结果。

为了彻底评估我们最终模块的有效性，我们首先进行了广泛的消融实验。然后，我们验证CBAM的性能优于所有的基线，没有花哨的设计，证明CBAM在不同架构以及不同任务中的普遍适用性。人们可以在任何CNN架构中无缝集成CBAM，并联合训练组合CBAM增强网络。图3以ResNet[5]为例，展示了CBAM与ResBlock集成的示意图。

4.1 Ablation studies

在这一小节中，我们以实证的方式展示了我们设计选择的有效性。在本消解研究中，我们使用ImageNet-1K数据集，并采用ResNet-50[5]作为基础架构。ImageNet-1K分类数据集[1]包括120万张图像用于训练，5万张用于验证，有1000个对象类。我们采用与[5，36]相同的数据增强方案进行训练，并在测试时应用大小为224×224的single-crop评估。学习率从0.1开始，每30个epochs下降。我们对网络进行90个epochs的训练.按照[5,36,37]，我们报告验证集上的分类错误。

我们的模块设计过程分为三个部分。我们首先寻找有效的方法来计算通道注意力，然后是空间注意力。最后，我们考虑如何将通道和空间注意模块结合起来。我们在下面解释每个实验的细节。

在这里插入图片描述

Channel attention.

我们通过实验验证，使用平均池化和最大池化特征可以实现更精细的注意力推理。我们比较了3种通道注意力的变体：平均池化、最大池化和两种池化的联合使用。请注意，使用平均池化的通道注意力模块与SE[28]模块相同。另外，当使用两种池化时，我们使用共享MLP进行注意力推理，以节省参数，因为聚合的通道特征都位于相同的语义嵌入空间.我们在本实验中只使用通道注意力模块，我们将还原比固定为16。各种集合方法的实验结果如表1所示。我们观察到，最大池化特征与平均池化特征一样有意义，对比基线的精度提升。但在SE[28]的工作中，他们只利用了平均池化特征，忽略了最大池化特征的重要性。

我们认为编码最显著部分程度的 max-pooled features可以补偿编码全局统计信息的average-pooled features 。因此，我们建议同时使用这两个特性，并对这些特性应用共享网络。一个共享网络的输出然后被元素合并。我们的经验表明，我们的通道注意方法是一种有效的方法，可以在没有额外的可学习参数的情况下，将性能从SE[28]进一步提高。作为一个简单的结论，我们在我们的通道注意模块中同时使用了平均和最大池化特征，在接下来的实验中，average-pooled features为16。

Spatial attention.

给定通道细化的特征，我们探索一种有效的方法来计算空间注意力。设计理念与通道注意力分支是对称的。为了生成一个二维空间注意力图，我们首先计算一个二维描述符，在所有空间位置上对每个像素的通道信息进行编码。然后，我们将一个卷积层应用到2D描述符上，得到原始注意力图。最终的注意力图通过sigmoid函数进行归一化处理。

我们比较了两种生成二维描述符的方法：在channel axis上使用平均和最大池化的通道池化，以及标准的1×1卷积，将通道维度缩减为1。此外，我们研究了以下卷积层的内核大小的影响：内核大小为3和7。在实验中，我们将空间注意模块放在之前设计的通道注意模块之后，因为最终的目标是两个模块一起使用。

在这里插入图片描述

表2为实验结果。我们可以观察到，通道池化产生了更好的准确性，说明显式建模的池化比可学习的加权通道池化（以1×1卷积的方式实现）能带来更精细的注意力推理。在不同卷积核大小的比较中，我们发现采用较大的核大小在两种情况下都能产生更好的精度。这意味着需要一个广阔的视野（即大的感受野）来决定空间上的重要区域。考虑到这一点，我们采用通道池法和卷积层与大尺寸的卷积核核来计算空间注意力。在一个简短的结论中，我们使用跨 channel axis的平均和最大池化特征与卷积核大小为7作为我们的空间注意力模块。

Arrangement of the channel and spatial attention.

在这个实验中，我们比较了三种不同的通道和空间注意子模块的排列方式：顺序通道-空间，顺序空间-通道，以及两种注意模块的平行使用。由于每个模块都有不同的功能，顺序可能会影响整体性能。例如，从空间角度看，通道注意力是全局应用，而空间注意力则是局部工作。另外，我们很自然地会想到，我们可能会将两个注意力输出组合起来，建立一个3D注意力图。在这种情况下，两个注意力可以并行应用，然后将两个注意力模块的输出相加，并进行归一化处理，用sigmoid函数。

在这里插入图片描述

表3总结了不同注意力排列方法的实验结果。从结果中，我们可以发现，按顺序生成注意力图比按并行方式生成注意力图更精细。此外，通道优先顺序的表现略优于空间优先顺序。需要注意的是，所有的排列方法都比只独立使用通道注意力的表现要好，这说明利用两种注意力是至关重要的，而最佳排列策略则进一步推高了性能。

Final module design.

在整个消融研究中，我们设计了通道注意模块、空间注意模块以及两个模块的安排。我们最终的模块如图1和图2所示：我们为通道和空间注意力模块选择了平均和最大池化；我们在空间注意力模块中使用了内核大小为7的卷积；我们依次安排了通道和空间子模块。我们最终的模块(即ResNet50+CBAM)实现了22.66%的top-1误差，远低于SE[28] (即ResNet50+SE)，如表4所示。

在这里插入图片描述

4.2 Image Classification on ImageNet-1K

我们进行ImageNet-1K分类实验来严格评估我们的模块。我们遵循4.1节中指定的相同协议，在不同的网络架构中评估我们的模块，包括ResNet[5]、WideResNet[6]和ResNext[7]。

表4总结了实验结果。使用CBAM的网络明显优于所有的基线，证明CBAM可以很好地泛化大规模数据集中的各种模型。此外，使用CBAM的模型在最强方法之一–SE[28]的基础上提高了准确率，SE是ILSVRC 2017分类任务的获胜方法。这意味着我们提出的方法是强大的，显示了新的池化方法的功效，它产生了更丰富的描述符和空间注意力，有效地补充了通道注意力。

在这里插入图片描述

图4描述了ImageNet-1K训练过程中各种网络的误差曲线。我们可以清楚地看到，我们的方法在两个误差图中表现出最低的训练和验证误差。这表明CBAM与SE相比，有更大的能力来提高基线模型的泛化能力[28]。

我们还发现，CBAM的整体开销在参数和计算方面都相当小。这促使我们将我们提出的模块CBAM应用到轻量级网络MobileNet[34]中。表5总结了我们基于MobileNet架构进行的实验结果。我们将CBAM放到了两个模型中，分别是基本模型和容量降低模型(即调整宽度乘数(a)为0.7)。我们观察到类似的现象如表4所示。CBAM不仅显著提高了基线的精度，而且还有利地改善了SE的性能[28]。这说明CBAM在低端设备上的应用潜力巨大。

4.3 Network Visualization with Grad-CAM [18]

在这里插入图片描述

图5：Grad-CAM[18]可视化结果。我们比较了CBAM集成网络（ResNet50+CBAM）与基线（ResNet50）和SE集成网络（ResNet50+SE）的可视化结果。grad-CAM的可视化是针对最后的卷积输出计算的。在每个输入图像的顶部显示 ground-truth标签，P表示每个网络的 ground-truth类的softmax得分。

对于定性分析，我们将Grad-CAM[18]应用于不同的网络，使用ImageNet验证集的图像。Grad-CAM是最近提出的一种可视化方法，它使用梯度来计算卷积层中空间位置的重要性。由于梯度是针对一个独特的类进行计算的，因此Grad-CAM的结果可以清晰地显示出出席的区域。通过观察网络认为对预测一个类的重要区域，我们试图看看这个网络是如何充分利用特征的。我们比较了CBAM集成网络（ResNet50 + CBAM）与基线（ResNet50）和SE集成网络（ResNet50 + SE）的可视化结果。图5说明了可视化结果。图中还显示了目标类的softmax分数。

显示出出席的区域。通过观察网络认为对预测一个类的重要区域，我们试图看看这个网络是如何充分利用特征的。我们比较了CBAM集成网络（ResNet50 + CBAM）与基线（ResNet50）和SE集成网络（ResNet50 + SE）的可视化结果。图5说明了可视化结果。图中还显示了目标类的softmax分数。

在图5中，我们可以清楚地看到，CBAM集成网络的Grad-CAM掩码比其他方法更好地覆盖目标对象区域。也就是说，CBAM-integrated网络能够很好地学习利用目标对象区域的信息，并从中聚合特征。注意，目标类得分也会相应增加。根据观察结果，我们推测CBAM的特征细化过程最终会使网络很好地利用给定特征。

CBAM

1 Introduction

2 Related Work

3 Convolutional Block Attention Module

4 Experiments

4.1 Ablation studies

4.2 Image Classification on ImageNet-1K

4.3 Network Visualization with Grad-CAM [18]

你可能也喜欢