《Siam R-CNN: Visual Tracking by Re-Detection》——文献翻译

Siam R-CNN: Visual Tracking by Re-Detection(Siam R-CNN:通过重新检测进行视觉跟踪)

解读: https://www.bilibili.com/read/cv4690157

https://blog.csdn.net/qq_33012833/article/details/105802190?ops_request_misc=&request_id=&biz_id=102&utm_term=siamrcnn&utm_medium=distribute.pc_search_result.none-task-blog-2
_all
sobaiduweb~default-2-105802190

摘要

我们提出了Siam R-CNN

，这是一个Siam的再检测架构，它充分发挥了两阶段目标检测方法在视觉目标跟踪中的作用。

我们将此与一种新的基于轨迹的动态规划算法相结合

，该算法利用第一帧模板和前一帧预测的重新检测，来建模被跟踪对象和潜在干扰对象的完整历史。这使得我们的方法能够做出更好的跟踪决策，以及在长时间遮挡后重新检测被跟踪的对象。

最后，我们提出了一种新的实例挖掘策略

来提高Siam RCNN对相似目标的鲁棒性。提出的跟踪器在10个跟踪基准上达到了目前最好的性能，特别是在长期跟踪方面有很强的效果.

前言

我们使用再检测跟踪的范例来处理视觉目标跟踪。

我们提出了一种功能强大的新型重新检测器

，Siam R-CNN，

它是对速度更快的R-CNN[74]的一种改进，采用了Siamese架构

，它通过确定

建议区域

是否与

模板区域

相同来重新检测图像中的任何地方的模板对象，并

对该对象的边界框进行回归

。我们的两阶段检测体系结构是健壮的，可以抵抗对象和长宽比的变化，因为建议区域是一致的，

这与流行的基于交叉相关关系的方法[49]

形成了对比.

通过重新检测的跟踪有着悠久的历史，可以追溯到Avidan[1]和Grabner等人的

开创性工作[28]

。由于存在与模板对象非常相似的干扰对象，

所以重新检测是一个挑战

。在过去，干扰物的问题主要是通过来自先前预测的强空间先验[4,49,48]或在线适应[1,28,2,76,30,77,42]来解决的。这两种策略都容易漂移。

在这里插入图片描述

我们在Siam R-CNN的重新探测器设计之外，

还做了两个新的贡献来解决干扰物的问题

。首先，

我们介绍了一种新的难例挖掘程序

，它专门训练我们的再探测器来对付困难的干扰物。

其次，我们提出了一种新的轨迹轨迹动态规划算法(TDPA)

，该算法通过重新检测前一帧中所有的目标候选框，并将这些候选框随时间分组到轨迹轨迹(短目标轨迹)中，同时跟踪所有潜在的目标，包括干扰目标。然后使用动态编程根据视频中所有目标对象和干扰对象tracklets的完整历史

选择当前时间步长的最佳对象

。Siam R-CNN通过明确地建模所有潜在对象的运动和相互作用，并将检测到的相似信息汇集到tracklets中，能够有效地进行长期跟踪，同时抵抗跟踪器漂移，能够在消失后立即重新检测到对象。我们的TDPA在每个时间步中只需要一小部分新的重新检测，就可以在线迭代地更新它的跟踪历史。这使得Siam R-CNN在拥有ResNet-101主干网的情况下，可以以每秒4.7帧(FPS)的速度运行，在拥有ResNet-50主干网的情况下，可以以每秒15帧以上的速度运行，输入建议图像更少，输入图像大小更小。

我们提供了大量数据集的评估结果。Siam R-CNN优于所有先前的方法六个短期跟踪基准,OTB2015 [99], TrackingNet [66], GOT-10k [38], NFS [43], VOT2015[46]和OTB50[99]以及四个长期跟踪基准,LTB35 [62], UAV20L [65], LaSOT[23]和OxUVA[86],达到尤其强劲性能指标,10百分点高于先前的方法。Siam R-CNN通过使用现成的长方形分割网络获得分割掩模，也胜过了之前所有只使用第一帧边界框(不带掩模)的视频对象分割方法(包括val和test-dev)[72]、YouTube-VOS 2018[101]和DAVIS 2016[71]。所有代码和模型都将可用。

方法

受到Siam追踪器成功的启发[45,99,47]，我们使用Siam架构作为我们的重新探测器。许多最近的跟踪器[118,94,48,49,5]采用单级探测器结构。

在单图像目标检测任务中，两级检测网络如Faster R-CNN[74]已被证明优于单级检测

。

受此启发，我们设计了一个Siamese两级检测网络跟踪器。第二阶段通过将感兴趣区域(RoI)的特征连接起来，可以直接将其与模板区域进行比较。通过调整提案和引用相同的大小，Siam RCNN实现了对对象大小和长宽比变化的强大鲁棒性，这在使用流行的互相关操作[49]时是很难实现的

。图2是Siam R-CNN的概述，包括Tracklet动态规划算法(TDPA)

在这里插入图片描述

Siam R-CNN概述:Siamese R-CNN提供了对第一帧边界框中给定对象的重新检测，我们的

Tracklet动态规划算法

使用了这一功能，并对前一帧进行了重新检测。结果是可以通过Box2Seg网络转换为分割掩码的边界框级跟踪.

3.1. Siam R-CNN

Siam R-CNN是一种基于两级检测架构的Siamese重探测器。具体来说，我们采用一个更快的R-CNN网络，它已经在COCO[56]数据集上进行了预先训练，用于检测80个对象类。该网络由一个主干特征提取器和两个检测阶段组成;首先是一个类别不可知的RPN，然后是一个类别特定的检测头。

我们修正了 backbone 和 RPN 的权重，用我们的重新检测头替换了特定类别的检测头。

我们为RPN提出的每个区域的再检测头创建输入特征，通过执行RoI对齐[33]来从该提议区域提取深度特征。我们还利用第一帧中RoI对齐的初始化边界框的深度特征，将这些深度特征串联起来，将组合后的特征进行1×1的卷积，使特征通道的数量减少一半。然后将这些连接的特征与两个输出类一起输入重新检测头;建议的区域要么是引用对象，要么不是。**我们的再探测头采用三级级联[9]，没有共享权值。**重新检测头的结构与更快的R-CNN的检测头的结构相同，只是使用了两个类和连接方式来创建重新检测头的输入特征。骨干和RPN被冻结，只有重新检测头(连接后)被训练用于跟踪，使用来自视频数据集的帧对。

这里，一个帧中的对象被用作参考，网络被训练在另一个帧中重新检测相同的对象

.

3.2. Video Hard Example Mining

在传统的快速R-CNN训练中，第二阶段的反例是从目标图像中RPN提出的区域中采样的。然而，在许多图片中，相关的负面例子很少。为了最大限度地提高再检测头的识别能力，需要对其进行硬反例训练。在以前的工作(如[26,79])中已经探索了挖掘用于检测的硬实例。但是，我们不是寻找一般的检测硬例子，而是通过从其他视频中检索对象，在参考对象的条件下找到重新检测的硬例子(???)

在这里插入图片描述

图3:硬的负面挖掘示例。左上角的图像显示了参考对象，其他图像显示了从其他视频中检索到的硬负面示例。

嵌入网络

选取与当前视频相关的视频，从中获取当前视频的硬反例，一个简单的方法是选取与当前对象相同的类的视频[118]。然而，对象类标签并不总是可用的，而且同一类的一些对象可能很容易区分，而不同类的一些对象也可能是潜在的硬否定。因此，我们建议使用一个嵌入网络，其灵感来自于人的重新识别，提取每个groundtruth边界的嵌入向量表示对象外观的boxing框。我们使用来自PReMVOS[60]的网络，

该网络使用批处理困难的三重损失[36]进行训练

，在对YouTube-VOS进行训练之前，将COCO上的类分开，

以消除单个对象实例之间的歧义。例如，两个不同的人在嵌入空间中应该离得很远，而同一个人在不同帧中的两个作物应该很近。
索引结构

。接下来，我们为近似近邻查询创建一个有效的索引结构，并使用它来查找被跟踪对象的近邻。图3为检索到的硬否定示例。可以看到，大多数负面的例子是非常相关和困难的。
训练过程

在其他视频上实时评估主干以检索当前视频帧的硬负面示例将非常困难。相反,我们重新计算每个训练数据的地面真值框的roi对齐特征。对于每个训练步骤，像往常一样，随机选择视频和视频中的对象，

然后随机选择参考和随机目标帧。

然后，我们使用索引结构从其他视频中检索10,000个最近邻的边界框，并从中选取100个作为额外的负面训练示例。关于视频硬例子挖掘的更多细节可以在

补充材料中找

到.

3.3. Tracklet Dynamic Programming Algorithm(动态规划算法)

我们的Tracklet动态规划算法(TDPA)隐式地跟踪感兴趣的对象和潜在的干扰，这样就可以一致地抑制干扰对象。为此，TDPA维护一组tracklets，即几乎可以肯定它们属于同一物体。然后，它使用基于动态编程的评分算法来为模板对象选择第一个和当前帧之间的最可能的tracklet序列。每个检测由一个边界框、一个重新检测分数及其roi对齐的特性定义。此外，每个检测都是一个tracklet的一部分。tracklet有一个开始时间和一个结束时间，由一组检测定义，从开始到结束时间的每个时间步长对应一个检测，即。在美国，the tracklet是不允许有间隙的。

Tracklet Building.

我们提取了第一帧地面真实边界框(ff_gt_feats)的RoI对齐特征，并初始化了一个仅由该框组成的轨迹。对于每一个新帧，我们将更新轨迹集如下(c.f.算法1):提取当前帧的主干特征，对区域建议网络(RPN)进行评估，得到感兴趣的区域(roi，第2-3行)。为了补偿潜在的RPN假阴性，roi集合由上一帧的包围框输出扩展。我们运行re-detection头部(包括边界框回归)在这些roi产生一组re-detections第一帧模板(4)行。后来,我们重新分类的一部分re-detection头对当前检测detst(第6行),但这一次的检测detst−1从第一帧的前一帧为参考而不是地面实况盒,每一对之间的相似性计算成绩(分数)的检测。

测量两个探测的空间距离,我们代表他们的边界框的中心坐标x和y,和他们的宽度w和高度h,其中x和w是归一化的图像宽度,和y和h与图像高度规范化,以便所有值在0和1之间。两个边界框(x1, y1, w1, h1)与(x2, y2, w2, h2)之间的空间距离由L∞范数给出，即马克斯(x1−x2 | | | y1−y2 |, | w1−w2 |, | h1−h2 |)。为了节省计算,避免错误的匹配,我们计算成对相似性得分仅为双检测这个空间距离小于γ和设置的相似性得分−∞。

我们延长tracklets当前帧与前一帧的检测(7-20行)当相似性得分高(>α)和一个新的检测没有歧义,即。,没有其他检测几乎一样高相似度(少于β保证金)tracklet,和没有其他tracklet几乎一样高相似度(少于β保证金)检测。当有任何不确定性时，我们开始一个新的轨迹，它最初包含一个单一的检测。含糊不清的地方将在tracklet评分步骤中解决。
Scoring.

A轨道A = (a1，…， aN)为N个不重叠的小轨序列，即、结束(ai) <开始(ai + 1)∀我∈{1,…，其中start和end分别表示小轨的开始和结束时间。一个轨迹的总分由衡量单个轨迹的质量的一元分数和惩罚轨迹之间空间跳跃的位置分数组成

其中ff分数为检测ai的重测置信度，t为轨迹let ai在t时刻以第一帧ground truth包围盒为参考的重测头的重测置信度。总有一个tracklet包含第一帧地面真理边界框,我们表示作为第一帧tracklet等于off。所有检测tracklet有很高的几率被正确tracklet初始检测的延续,因为在tracklets含糊不清的情况下终止。因此，对第一帧tracklet的最新检测也是几乎肯定是正确对象的最新观测。因此，我们还使用第一帧tracklet的最新检测作为重新检测的额外参考。这个分数用ff tracklet分数表示，并与ff分数线性组合。

位置得分两tracklets ai – L1范数并给出aj的边界框的区别(x, y, w h) ai的最后检测的边界框的第一检测aj,即
Online Dynamic Programming.

我们有效地找到序列的tracklets最高分值(Eq。1)通过维护一个数组θ,对于每个tracklet存储总分θ(一个)的最优序列的tracklets从第一帧开始tracklet和结尾.

tracklet一旦不扩展，就会终止。因此，对于每个新帧，只需要新计算已扩展或新创建的小轨的分数。对于一个新的时间步,首先我们θ(著名)= 0的第一帧tracklet等于off,因为所有跟踪tracklet不得不开始。后来,每tracklet已更新或新创建的,θ(一)计算

为了保持非常长的序列的效率，我们允许两个1500帧的tracklet之间有一个最大的时间间隔，这对于大多数应用程序来说已经足够长了。

3.4. Box2Seg

为了为VOS任务生成分割掩码，我们使用来自PReMVOS[60]的现成的边界box to segmention (Box2Seg)网络。Box2Seg是一个全卷积的DeepLabV3+[11]网络，具有xcep -65[16]骨干网。它已经在Mapillary[68]和COCO[56]上训练，输出用于包围框作物的掩模。Box2Seg速度很快，跟踪后运行它只需要每帧0.025秒。我们将重叠的遮罩组合在一起，使得较少像素的遮罩位于顶部。

θ为当前帧更新后,我们选择trackletˆ与动态规划得分最高,即maxaˆ=参数θ(一个)。如果所选的tracklet在当前帧中不包含检测，那么我们的算法表明该对象不存在。对于需要在每一帧中进行预测的基准测试，我们使用来自所选tracklet的最新框，并将其赋值为0

3.5. Training Details

Siam R-CNN建立在Faster R-CNN[74]实现和来自[96]的预训练权重的基础上，具有ResNet-101-FPN主干[34,55]、组标准化[97]和级联[9]。它已经在COCO[56]上从零开始进行了预训练。除特别说明外，我们对Siam R-CNN同时进行多个跟踪数据集的训练集:ImageNet VID

75

、YouTube- OS 2018

101

、GOT-10k

38

和LaSOT

23

。我们使用运动模糊和灰度增强来训练[118]，以及伽马和尺度增强.

4 实验

5. Conclusion总结

我们介绍了Siamese R-CNN作为

Siam两级fully-image再检测架构

与

跟踪动态规划算法

。Siam R-CNN在10个跟踪基准上优于所有以前的方法，在长期跟踪方面的结果尤其强劲。我们希望我们的工作将激励未来的工作使用两阶段的架构和全面重新检测跟踪。感谢:对于本项目的部分资金，PV、JL和BL谨向ERC整合商Grant DeeViSe (ERC-2017- cg -773161)和谷歌教员研究奖表示感谢。PHST感谢CCAV项目Streetwise和EPSRC/MURI grant EP/N019474/1。作者要感谢Sourabh Swain、Yuxin Wu、Goutam Bhat和Bo Li的有益讨论。

原文链接：https://blog.csdn.net/weixin_45032769/article/details/103353767

摘要

前言

相关工作

方法