典型的目标检测假定训练和测试数据来自同一个理想分布，但是在实际中这通常是不满足的。这种分布的错误匹配将会导致一个明显的性能下降。这篇工作我们旨在提升目标检测的跨域鲁棒性。我们在两个层级上解决域偏移问题：(1)、图像级偏移，例如图像的风格、亮度等。(2)、实例级偏移，例如目标的外观、尺寸等。基于最近的最先进的目标检测器Faster R-CNN来构建我们的方法，我们设计了两个域适配组件，图像级和实例级，来减少域矛盾。这两个域适配组件基于H散度理论，并且用对抗训练方式训练的域分类器来实现。不同级别的域分类器用连续正则化进一步加强，目的是在Faster R-CNN模型上学习一个域不变RPN。使用多个数据集包括Cityscapes，KITTI，SIM10K等来评估我们新提出的方法。结果证明对各种域迁移场景的鲁邦目标检测，我们提出的方法很有效。

1、简介

在计算机视觉中目标检测是一个基本的问题，目的是在一幅图像中识别和定位确定类别的所有目标实例。受CNN大潮的驱动，许多基于CNN的目标检测方法开始出现，很大程度上提升了，目标检测的性能。尽管在基准数据集上取得了非常好的性能，但是真实世界的目标检测依然面临着很多方面的变化，目标外观、背景、亮度、图像质量等，在训练和测试集上面临着相当大的域迁移。以自动驾驶为例，在一个特定汽车上使用的相机类型和设置也许和收集到的训练数据不同，汽车也许在一个不同的城市，目标的外观也是不同的。更重要的是自动驾驶期望在不同天气条件下可靠的工作(例如，在雨或雾中)，但是训练数据通常在能见度比较高的干燥天气中获得。

最近的趋势使用合成数据来训练CNN模型，面临一个类似的挑战，原因是和真实视觉不匹配。若干个聚焦自动驾驶的数据集如图1所示，我们能观察到一个相当大的域漂移。

这些域漂移，据观察能导致明显的性能下降。尽管收集更多数据可能缓解域漂移的影响，由于标注bbox很昂贵并且很耗时，因此这条路是不容易的。因此开发算法适配目标检测模型到一个新的域非常重要了，这个域和训练数据集视觉上有很大区别。这篇文章中，我们强调跨域目标检测问题。

我们考虑无监督域适配场景，源域中具有全监督信息，目标域中无任何监督信息。因此在目标域中目标检测性能的提升，应该在无任何额外标注代价的情况下得到。

我们基于Faster R-CNN模型构建一个端对端的深度学习模型，也就是域迁移Faster R-CNN。基于协变量偏移假设，域迁移应该在图像级实现(图像尺寸、图像类型、亮度等)和实例级(目标外观和尺寸等)，这鼓励我们在两个级别上最小化域的不符。

为了解决域漂移，我们在图像级和实例级上合并两个域适配组件到Faster R-CNN，来最小化两个域的H散度差别。在每个组件上我们训练一个域分类器，并且采用对抗策略来学习域不变鲁棒特征。

在不同层级上，我们进一步合并域分类器之间的一致性正则化，来学习一个域不变RPN，使用Faster R-CNN模型。

本文的贡献如下：(1)、从概率的角度，我们提供了对跨域目标检测的域迁移理论分析。(2)、我们设计了两个域漂移组件来缓解图像级和实例级的差异。(3)、我们进一步提出了一致性正则化来使得RPN是域不变的。(4)、我们将提出的组件集成到Faster R-CNN模型中，结果系统能够端对端训练。

我们在多个数据集包括Cityscapes、KITTI 、SIM 10k等上进行了大量的实验来评估我们的模型。实验结果明确证明了我们提出方法的有效性，解决域不符的多场景下目标检测的域漂移问题。

2、相关工作

目标检测：

目标检测数据可以追溯到很久以前，产生了大量的方法。经典工作通常将目标检测问题描述为一个滑动窗口分类问题。在计算机视觉中，随着卷积神经网络的使用，它的成功带来了思维模式的迅速转变。提出了大量的方法，基于区域的卷积神经网络(R-CNN)获得了显著的关注，由于他们的作用。这项工作是由R-CNN开创的，该方法从图像中提取区域建议，训练网络对感兴趣区域(ROI)进行独立分类。这个想法通过Fast R-CNN和Faster R-CNN进一步延伸，在所有ROI上共享卷积层。Faster R-NN利用RPN来产生目标建议。取得了最先进的成果，为后续的许多工作奠定了基础。更快的R-CNN也是高度灵活的，可以扩展到其他任务，例如实例分割。然而，这些工作集中在传统的设置，没有考虑领域适配问题的目标检测在野外。本文选择Faster R-CNN作为基检测器，提高其在新目标域的目标检测泛化能力。

域适配：

在计算机视觉中的图像分类上，域适配进行了广泛的研究。传统方法，包括域迁移多核学习、对称度量学习、子空间插值、流形核、子空间对齐、协方差矩阵对齐等。最近的工作旨在提升卷积神经网络的域适配。不同于这些问题，我们聚焦目标检测问题，这更具挑战性，因为目标定位和类别都需要预测。

最近的一些研究也提出在两组数据之间进行不配对的图像转换，可以看作是像素级的域适应。然而，它仍然是一个具有挑战性的问题，生产逼真的图像在高分辨率的要求，如现实世界的应用，自动驾驶。

分类之外的域适配：

与分类领域适应的研究相比，其他计算机视觉任务领域适应的研究较少。近年来，有一些关于语义分割的研究和细粒度识别。对检测任务，DPM的域迁移提出通过引入适配DPM来缓解DPM的域迁移问题。最近的工作，[47]使用R-CNN模型作为一个特征提取器，然后采用子空间对齐的方法对特征进行对齐。也存在从其他来源学习检测器的工作，例如从图像到视频，从3D模型，或从合成模型。以前的工作要么不能以端到端方式进行训练，要么关注于特定的案例。在这项工作中，我们建立了一个端到端可训练的目标检测模型，据我们所知，这是第一个此类模型。

3、预热

3.1、Faster R-CNN

我们简要的回顾Faster R-CNN模型，这个工作中使用的baseline模型。Faster R-CNN是一个两阶段的检测器，主要由三个组件构成，共享的此层卷积层、区域建议网络和基于分类器的ROI池化。结构如图2所示。

首先把输入图像表示成底层卷积层产生的卷积特征图。基于这个特征图，RPN产生候选目标建议，随后ROI分类器预测类别标签，这些标签来自ROI池化得到的特征向量。训练损失由RPN和ROI分类器损失的和得到：

ROI和RPN分类的损失都有两种形式：一个用于分类，即预测概率的准确性。另一个是在方框坐标上的回归损失，以便更好地定位。

3.2、用H散度分布排列

H散度设计用来衡量两个不同服从不同分布的样本集之间的差异。用x表示一个特征向量，源域样本可以表示为
$x_S$
，目标域样本可以表示为
$x_T$
，我们用
$h\rightarrow \{0,1\}$
表示一个域分类器，旨在将源域的样本
$x_S$
预测为0，将目标域的样本
$x_T$
预测为1。假定H是可能的域分类器的集合，H散度定义的两个域如下：

其中
$err_S$
和
$err_T$
分别是在源域和目标域样本上预测的h(x)的误差。上面的定义意味着域距离
$d_H(S,T)$
和域分类器的错误率成反比。换句话说，如果最好的域分类器的误差很大，那么这两个域很难区分，所以它们很接近，反之亦然。

在深度神经网络中，特征向量x通常由特定层后的激活组成。让我们用f表示产生x的网络。为了使两个域对齐，我们需要强制网络f输出特征向量，使域距离
$d_H(S, T)$
最小化，从而导致：

这个可以以对抗训练的方式优化。Ganin and Lempitsky实现了梯度倒转层(GRL)，并且在无监督域适配场景将它集成到CNN来进行图像分类。

4、目标检测的域适配

遵循领域适应中的常用术语，我们将训练数据的域作为源域，表示为S，测试数据的域作为目标域用T表示。例如，Cityscape数据集用来训练、KITTI数据集用来测试的时候，S是Cityscape数据集，T是KITTI数据集。我们也遵循非监督域适配的设置(例如,bbox和目标类)，但是目标域中仅仅由未标记的数据。我们的任务是学习一个目标检测模型来适配未标记的目标域。

4.1、概率观点

目标检测可以看成是学习一个后验概率P(C,B|I)，I是图像表示，B是一个目标的bbox，
$C\in \{1,...,K\}$
是目标的类别，K是总共的类别数。让我们将目标检测训练样本的联合分布表示为P(C, B, I)，使用
$P_S(C, B ,I)$
和
$P_T(C, B ,I)$
，分别表示源域的联合分布和目标域的联合分布。注意这里我们使用
$P_T(C, B ,I)$
来分析域漂移问题，尽管bbox和类别标记(例如，B和C)在训练期间是未知的。当域迁移发生的时候
$P_S(C, B ,I) \neq P_T(C, B ,I)$
。

图像级适配：

使用贝叶斯公式，联合分布可以表示为

：

$P(C, B, I) = P(C, B|I)P(I)$

和分类问题类似，对目标检测我们做共同变量漂移假设，例如条件概率P(C,B|I)对两个域是相同的，并且域分布漂移是由边缘分布P(I)的差决定的。换句话说，检测器在两个域之间是连续的：给定一张图像，检测结果应该是相同的，不管图像属于哪个域。在Faster R-CNN模型中，图像表示I实际上是基础卷积层的输出。因此为了处理域漂移问题，我们应该强制两个域图像的表示分布，使之相同，例如
$P_S(I)=P_T(I)$
，这指的是图像级的适配。

实例级的适配：

另一方面，联合分布也可以分解为：

用协变量漂移假设，例如条件概率P(C|B, I)对两个域是相同的。我们说域分布漂移服从不同的边缘分布P(B, I)。直观上来讲，这意味着两个域的语义是连续的：给定同样的图像区域包含一个目标，类标签应该是一样的，而不管它来自哪个域。因此，我们也将来自两个域的实例表示增强成一样的，例如
$P_S(B, I)=P_T(B, I)$
。我们将它看做是实例级对齐。

这里实例级表示(B, I)指的是对每个实例在ground truth中的图像区域。尽管对目标域bbox标注是获得不了的，我们可以通过P(B, I) = P(B|I)P(I)来获得，其中P(B|I)是一个bbox预测器(例如，Faster R-CNN中的RPN)。这仅仅在当P(B|I)是域不变时实现，我们在下面提供一个解。

联合适配：

理想情况下，我们可以即在图像上也在实例上进行域对齐。对两个域，考虑P(B, I)=P(B|I)P(I)，并且条件分布P(B|I)对两个域假定是相同且非零的，因此我们有：

另一方面，如果图像级的表示对两个域是相同的，实例级分布的表示也是相同的，反之亦然。但是，完美估计条件分布P(B|I)是不容易的。原因有两个方面：(1)、实际上很难完美估计对齐的边缘分布P(I)，这意味着对估计P(B|I)的输入从某种程度上来说是有偏向的。(2)、bbox标注仅仅在源域的训练数据中可以得到，因此P(B|I)通过学习源域的数据得到，这很容易的偏向了源域。

为了这个目的，我们提出在图像级和实例级上执行域分布对齐，并且在估计P(B|I)的时候利用连续正则化来缓解这个偏差。正如3.2节介绍的那样，为了将两个域的分布对齐，我们需要训练一个域分类器h(x)。在目标检测上下文中，x可能是图像级表示I，或者是实例级表示(B, I)。从概率的角度来看，h(x)可以看做是属于目标域的估计样本x的概率。

因此，通过将域标签指定为D，图像级域分类器可以看成是估计P(D|I)，并且实例级域分类器可以看成是估计P(D|B, I)。通过使用贝叶斯理论，我们得到：

4.2、域适配组件

对图像级和实例级，这节介绍两个域适配组件，用来对这两个级进行特征对齐。

图像级适配：

在Faster R-CNN模型中，图像级表示指的是基础卷积层的输出特征，如图2的流程图所示，为了消除域分布的不匹配，我们使用基于patch的域分类器，如图2右下角所示。

特别地，我们在每次从特征图激活时训练一个域分类器。因为每个激活的感受野对应着输入图像的一个patch Ii，域分类器确实预测每个图像块的域标签。

这个选择的好处有两个方面：

对齐图像级的表示通常帮助减少整个图像不同导致的偏差，例如图像风格、图像尺寸、光照等。一个类似的基于patch的损失在最近的工作中很有效，在类型迁移中，这也处理全局变换。
对目标检测网络batch-size通常很小，原因是使用了高分辨率的输入。

让我们将第i个训练图像的标签表示为Di，源域为Di = 0，目标域为Di = 1。我们将基础卷积网络第i个图像的特征图在(u, v)处的激活表示为
$\phi_{u,v}(I_i)$
。将域分类器的输出表示为
$p_i^{(u,v)}$
，并且使用交叉熵，图像级的适配损失可写为：

如3.2节讨论的那样，为了合并域分布，我们应该同时最小化域分类器的参数，来最小化上述的域分类器损失，同时也优化基础网络的损失来最小化损失。为了实现，我们使用梯度倒转层(GRL)，尽管普通的梯度下降用来训练域分类器。当通过GRL层来优化基础网络的时候，梯度的标志会倒转。

实例级适配：

实例表示指的是在加入最终的类分类器之前的基于ROI的特征向量(例如，图2中FC后的矩形)。合并实例级表示帮助减小定位实例的不同，例如目标外观、尺寸、视角等。和图像级适配类似，我们对特征向量训练一个域分类器，来对齐实例级的分布。让我们将第i个图像中的第j个区域建议的实例级域分类器的输出表示为
$p_{i,j}$
。实例级的适配损失可以重写为：

应用对抗训练策略，我们也在域分类器之间加入梯度倒转层。

连续正则化：

正如4.1节分析的那样，在不同层次上增强域分类器之间的一致性，有助于学习边界框预测器的跨域鲁棒性。例如Faster R-CNN中的RPN模型。因此，我们进一步加入一个连续正则化。因为图像级域分类器产生每个图像表示I的激活输出，我们取图像中所有激活的平均值作为其图像级概率。连续正则化可以表示为：

其中I代表了特征图中的激活总数，||.||代表l2距离。

4.3、网络预览

整个网络的概览如图2所示。我们用我们的域适配基础架构来增强Faster R-CNN基础结构，形成域适配Faster R-CNN模型。左边的模型是原始的Faster R-CNN模型。底层的卷积层在不同的组件之间共享，然后RPN和ROI池化层构筑在上面，然后是两个全连接层来提取实例级特征。三个新组件在域适配Faster R-CNN中已经介绍过了。图像级的域分类器加到最后的卷积层后面，实例级的域分类加到ROI-wise特征后面。两个分类器用连续的损失连接使得RPN是域不变的。提出网络最终的训练损失是各部分的和，可以写为：

其中lambda是一个妥协参数，来平衡Faster R-CNN损失和我们新加入的域适配组件。网络可以使用标准的SDG算法来进行端对端方式的训练。注意对域适配组件的对抗训练可以使用GRL层获得，在反向传播期间自动倒转梯度。图2中的整个网络在训练期间使用。在测试期间，我们可以使用有适配权重的原始Faster R-CNN结构。

5、实验

5.1、实验设置

在我们的实验中，我们使用无监督域适配方法。训练数据由两部分组成：提供源域数据和它们的标注(bbox和类别)，目标域的数据仅仅可以获得无标记的图像。为了对所有域漂移场景，我们给出了我们模型的最终结果和合并不同组件的结果(例如，图像级适配、实例级适配和连续正则化)。尽我们所知，这是第一个提出对交叉域目标检测来提升Faster R-CNN。我们将原始Faster R-CNN模型作为一个baseline，使用源域数据来训练，不用考虑域迁移。对所有实验，我们将mAP设置为0.5来进行评估。

除非另做说明，所有训练和测试的图像都经过变换，因此短边有500个像素来匹配GPU内存，在所有实验中，我们设置lambda = 0.1。我们按照[48]的超参数设置方式。特别的，模型使用ImageNet预训练的权重来初始化。我们用0.001的学习率迭代50k次来finetune网络，然后将学习率减少到0.0001来进行另外的20k次迭代。每个batch有两张图片，一个来自源域，另一个来自目标域。在我们的实验中动量为0.9，weight decay设置为0.0005。

5.2、实验结果

在这节中我们评估我们在三个不同的域迁移场景下评估我们提出的域适配Faster R-CNN模型：(1)、从合成数据中学习，其中训练数据集从游戏视频中获得，测试数据来自真实世界(2)、在恶略天气中驾驶，其中训练数据来自好天气，测试数据来自有雾天气。(3)、跨相机适配，训练数据和测试数据通过不同的相机设置得到。

5.2.1、从合成数据中学习

随着计算机图形学技术的进步，使用合成数据来训练CNN变得越来越流行。尽管合成数据和真实世界的图像具有明显的不同，并且通常和真实数据训练的模型有一个性能差距。我们开始的实验研究提出的方法在这些场景上的效果。我们使用SIM 10K数据集作为源域，Cityscape做为目标域。

数据集：

SIM 10K由10000张图像组成，并且通过游戏引擎GTAV进行了渲染。在SIM 10K，包围框的58701个汽车，由10000张图像提供。所有图像都用来训练。Cityscape是一个用来进行自动驾驶的城市景观数据集。图像通过车载摄像机获得。训练集中有2975张图片，验证集有500张图片。我们使用训练集中未标记的数据作为源域来适配我们的检测器，在验证集中报道结果。在Cityscape中实例类别有8类，但是在实验中仅仅使用汽车，因为在SIM 10K数据集中汽车已经标注了。请注意，Cityscapes数据集并不专门用于检测，因此我们将其实例掩码的最紧的矩形作为ground-truth边界框。

结果：

不同方法的结果总结如表1所示。特别地，和Faster R-CNN相比，仅仅使用图像级适配组件，性能提升了+2.9%，使用实例级对齐仅仅提升了5.6%。这证明了我们提出的图像级自适应和实例级自适应组件可以有效地减少各层上的域偏移。将这两个部分结合起来可以提高7.7%，验证了我们关于在两个层次上减少域转移的必要性的猜想。通过进一步应用一致性正则化，我们的域自适应快R-CNN模型将快R-CNN模型提高了+8.8%，AP达到38.97%。

5.2.2、在恶劣天气驾驶

我们通过研究天气条件之间的领域转移来进行评估。天气条件是区域差异的一个重要来源，因为随着天气条件的变化，场景在视觉上也会发生变化。检测系统能否在不同的天气条件下忠实地执行对安全自主驾驶系统至关重要[44,49]。在本节中，我们将研究在将模型从正常天气调整到雾天时检测目标的能力。

数据集：

Cityscapes被用作我们的源域，图像主要是在晴天获得的。在这个实验中，我们报告了带有实例注释的类别的结果:person、rider、car、truck、bus、train、motorcycle和bicycle。对目标域我们使用有雾的街景数据集，最近发表在IJCV上。有雾的街景是一个合成数据集，在真实的场景中模拟雾。这些图像是使用来自Cityscapes的图像和深度地图呈现的。示例可以在图1和原始论文[49]中找到。雾天城市景观的语义标注和数据拆分继承自城市景观，是研究天气条件引起的领域转移的理想选择。

结果：

表2展示了我们的结果和其他baseline的结果。类似的观察也适用于从合成数据场景中学习。结合所有组件，我们的自适应快速R-CNN将baseline Faster R-CNN模型提高了+8.6%。此外，我们可以看到这种改进可以很好地在不同类别之间进行泛化，这表明所提出的技术还可以减少不同目标类之间的域差异。

5.2.3、跨相机适配

由于不同的数据集是使用不同的设置、不同的图像质量/分辨率捕获的，而且在收集数据集时通常会出现一些数据偏差，因此，即使在相似的天气条件下，实际数据集之间也常常存在域偏移。对于检测来说，不同的数据集在规模、大小和类分布上也有很大的差异，有时很难确定域移位的来源。在本部分中，我们将重点研究两个真实数据集之间的适配，因为我们将KITTI和Cityscapes作为我们的数据集。

数据集：

我们使用KITTI训练集，它包含7,481张图像。数据集用于适应和评估。图像的原始分辨率为1250×375，并调整大小，使较短的长度为500像素长。Cityscapes用作另一个域。与第一个实验一致，我们使用car的AP来评估我们的方法。

结果：

我们在两个适应方向上应用了所提出的方法，我们将KITTI表示为K→C，反之亦然。表3将我们的方法与其他基线进行了比较。我们提出的自适应Faster R-CNN模型比其他基线有明显的性能改进。该方法对自适应方向K→C和C→K均适用。

5.3、顶级检测的错误分析

在前面几节中，我们已经展示了映像级和实例级对齐都有助于减少域差异。为了进一步验证图像级自适应和实例级自适应的个体效果，我们分析了使用不同级别自适应组件的模型的最可靠检测所导致的准确性。

我们使用KITTI→Cityscapes作为研究案例。我们为普通的Faster R-CNN模型选择了2万个最高的置信度，我们的模型只有图像级的适配，我们的模型只有实例级的自适应。受[28]的启发，我们将检测分为三种错误类型:

正确:检测与ground-truth的重叠大于0.5。

定位错误:检测重叠，ground-truth为0.3 – 0.5

背景:检测重叠小于0.3，以背景为假阳性。

也就是说它把背景当作假阳性。

结果如图3所示。从图中我们可以观察到，每个单独的组件(图像级或实例级适配)都提高了正确检测的数量(蓝色)，并显著减少了误报的数量(其他颜色)。此外，我们还观察到使用实例级对齐的模型比使用图像级对齐的模型具有更高的背景误差。原因可能是图像级对齐更直接地改进了RPN，从而产生了具有更好定位性能的区域建议。

5.4、图像级和实例级对齐

图像尺度已被证明在许多计算机视觉任务中起着至关重要的作用。为了进一步分析图像级和实例级适应的影响，我们通过改变图像尺度对KITTI→Cityscapes进行了实验。由于在两个数据集中使用不同的相机，不同的相机参数可能会导致两个域之间的尺度漂移。特别地，我们将图像的较短长度称为图像的比例尺。为了研究图像缩放如何影响我们的两个域自适应组件，我们改变目标域的图像大小，以了解当源域的缩放固定为500像素时，这如何影响两个组件的行为。为了提高效率，我们使用了一个更小的VGG-M模型作为主干，并且所有其他设置保持相同。我们在图4中绘制了不同模型的性能。通过改变目标图像的尺度，我们观察到香草的性能Faster R-CNN(即。当量表不匹配时，非适应性)显著下降。对比两种自适应模型，图像级自适应模型比实例级自适应模型对尺度变化具有更强的鲁棒性。

这背后的原因是，规模变化是一个全局转换，它影响所有实例和背景。在我们的设计中，全局域转移主要通过图像级对齐来处理，实例级对齐用于最小化实例级差异。当全局域发生严重偏移时，实例建议的定位误差增大，偏离建议会影响实例级对齐的精度。尽管如此，使用这两种方法总是可以在所有范围内产生最好的结果。与普通的Faster R-CNN相反，我们的模型可以从高分辨率的目标图像中获益，并且随着比例从200像素上升到1000像素，它的表现也越来越好。

5.5、连续正则化

正如第4.2节所讨论的，我们在两个不同的层次上对域分类器进行一致性正则化，以学习一个鲁棒的RPN。为了说明使用一致性正则化的好处，我们以KITTI→Cityscapes为例，研究使用一致性正则化前后RPN的性能，如表4所示。RPN的前300个建议与ground-truth之间可达到的最大平均重叠值用于测量。普通的Faster R-CNN模型也包括作为一个基准。从表中可以看出，在不使用一致性正则化器的情况下，由于采用了图像级和实例级的自适应，我们的模型在mIoU方面提高了Faster R-CNN，从18.8%提高到了28.5%。进一步加入一致性正则化器后，RPN的性能可以进一步提高到30.3%，说明一致性正则化器可以使RPN具有更强的鲁棒性。

6、结论

在本文中，我们引入了领域自适应Faster R-CNN模型，这是一种有效的跨领域目标检测方法。使用我们的方法，可以为新域获得健壮的目标检测器，而不需要使用任何附加的标记数据。我们的方法是建立在最先进的Faster R-CNN模型。在对跨域目标检测进行理论分析的基础上，提出了一个图像级自适应组件和一个实例级组件来缓解由于域移动而导致的性能下降。适应部分基于H-散度的对抗性训练。在此基础上，利用一致频率正则化器进一步学习域不变RPN。我们的模型可以使用标准的SGD优化技术进行端到端的训练。我们的方法在不同的领域变换场景中得到了验证，自适应方法的性能明显优于基准的R-CNN方法，从而证明了其在跨领域目标检测中的有效性。

原文链接：https://blog.csdn.net/weixin_36670529/article/details/106128823

摘要