【目标跟踪】|PrDiMP Probabilistic Regression for Visual Tracking

  • Post author:
  • Post category:其他


这篇论文是Martin Danelljan CVPR2020的最新一个工作,这个系列中几篇论文都是一种架构,即将整个跟踪任务分为位置预测和bbox回归两个问题,模型架构采用的是一种类似Siamese架构。这篇论文主要解决的是位置回归的问题,bbox的回归还是直接使用的跟atom\dimp中一样的Iou-net的head。

将目标跟踪视为每一帧的目标回归问题:

1、使用DCF或Siamese等进行粗略定位,其对于目标背景、杂波和遮挡具有一定鲁棒性【Target Center Regression】;

2、使用单独的网络分支,用于回归目标框【Bounding Box Regression】。

在atom中位置预测被定义为一个二分类问题,模型学习区分目标和背景两个类别,从而定位目标的位置。

在Dimp中,作者引入元学习,将第一帧的信息融入到后面帧中,即使用第一帧的信息来为后面帧的在线更新模型提供权重,这里在线更新模型是指位置预测和边界框预测的两个Head部分。

在这篇论文中,作者都归为回归问题,这里使用一个条件概率模型来通过前面帧的信息,预测下一帧的位置。



问题

GT框的中心位置发生严重偏移,故而目标中心回归是一项艰巨任务。

对GT边界框未进行准确标注,而在训练网络时,标注的这种分歧变化会被忽略。多个注释者对给定对象的注释有所差异,尤其出现运动模糊、遮挡、小目标等情况下尤为明显,所以准确的bbox标签也是一项艰巨任务。

在目标估计中表示不确定性是至关重要的。尽管目前的突出范例依赖于评估一个依赖于状态的信心分数,这个值缺乏一个明确的概率解释,使它的使用复杂化。

在这里插入图片描述



本文方法

估计目标状态的不确定性很重要。与当前最先进的方法不同,我们的方法根据输入图像x预测目标状态y的概率分布p(y | x),提供了输出的清晰解释。

我们假设没有特定的分布族,比如高斯分布,而是让p(y|x)直接由网络结构本身参数化。具体地说,密度p(y|x)由SoftMax操作的连续的泛化来表示,SoftMax操作以前在基于能量的模型[27]中使用,最近在[18]中使用。与之前的工作不同,我们还对注释本身的不确定性进行建模,伪标签函数a被标签条件分布 p ( y ∣ y i )代替。这在视觉跟踪中非常重要,它模拟了注释 y i 中的噪声和不确定性。可以消除注释中的噪音和回归任务本身的歧义。

通过最小化预测密度和标签分布之间的Kullback-Leibler散度来训练网络。

在这里插入图片描述

目标中心回归是一项不明确的任务,其中不清楚如何定义“正确”的值yi。我们的公式通过“正确”值的分布p(y | yi)对回归任务中的这种模糊性和不确定性进行建模。

在这里插入图片描述

在这里插入图片描述

ref

https://blog.csdn.net/weixin_39467358/article/details/106361044



版权声明:本文为qq_35608277原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。