【目标跟踪】|PrDiMP Probabilistic Regression for Visual Tracking

Post author:xfxia
Post published:2023年9月11日
Post category:其他

这篇论文是Martin Danelljan CVPR2020的最新一个工作，这个系列中几篇论文都是一种架构，即将整个跟踪任务分为位置预测和bbox回归两个问题，模型架构采用的是一种类似Siamese架构。这篇论文主要解决的是位置回归的问题，bbox的回归还是直接使用的跟atom\dimp中一样的Iou-net的head。

将目标跟踪视为每一帧的目标回归问题：

1、使用DCF或Siamese等进行粗略定位，其对于目标背景、杂波和遮挡具有一定鲁棒性【Target Center Regression】；

2、使用单独的网络分支，用于回归目标框【Bounding Box Regression】。

在atom中位置预测被定义为一个二分类问题，模型学习区分目标和背景两个类别，从而定位目标的位置。

在Dimp中，作者引入元学习，将第一帧的信息融入到后面帧中，即使用第一帧的信息来为后面帧的在线更新模型提供权重，这里在线更新模型是指位置预测和边界框预测的两个Head部分。

在这篇论文中，作者都归为回归问题，这里使用一个条件概率模型来通过前面帧的信息，预测下一帧的位置。

问题

GT框的中心位置发生严重偏移，故而目标中心回归是一项艰巨任务。

对GT边界框未进行准确标注，而在训练网络时，标注的这种分歧变化会被忽略。多个注释者对给定对象的注释有所差异，尤其出现运动模糊、遮挡、小目标等情况下尤为明显，所以准确的bbox标签也是一项艰巨任务。

在目标估计中表示不确定性是至关重要的。尽管目前的突出范例依赖于评估一个依赖于状态的信心分数，这个值缺乏一个明确的概率解释，使它的使用复杂化。

在这里插入图片描述

本文方法

估计目标状态的不确定性很重要。与当前最先进的方法不同，我们的方法根据输入图像x预测目标状态y的概率分布p（y | x），提供了输出的清晰解释。

我们假设没有特定的分布族，比如高斯分布，而是让p(y|x)直接由网络结构本身参数化。具体地说，密度p(y|x)由SoftMax操作的连续的泛化来表示，SoftMax操作以前在基于能量的模型[27]中使用，最近在[18]中使用。与之前的工作不同，我们还对注释本身的不确定性进行建模，伪标签函数a被标签条件分布 p ( y ∣ y i )代替。这在视觉跟踪中非常重要，它模拟了注释 y i 中的噪声和不确定性。可以消除注释中的噪音和回归任务本身的歧义。

通过最小化预测密度和标签分布之间的Kullback-Leibler散度来训练网络。

在这里插入图片描述

目标中心回归是一项不明确的任务，其中不清楚如何定义“正确”的值yi。我们的公式通过“正确”值的分布p（y | yi）对回归任务中的这种模糊性和不确定性进行建模。

ref

https://blog.csdn.net/weixin_39467358/article/details/106361044

原文链接：https://blog.csdn.net/qq_35608277/article/details/125670943

问题

本文方法

你可能也喜欢