行人重识别基础(一)

  • Post author:
  • Post category:其他




为什么要研究Re-ID

行人重识别(Re-ID)旨在通过多个不重叠的摄像机检索感兴趣的人员。 近年来,人们对于公共安全的需求不断增强,同时,日常生活中也出现了越来越多的监控摄像头。但是监控摄像头中的海量数据往往难以得到有效且及时的处理。因此使用Re-ID技术对于实现智能监控系统至关重要。研究Re-ID具有重大的价值和实际意义。



什么是Re-ID

Re-ID的具体任务就是:给定一个待查询的人,判断此人是否在不同的时间点出现在不同的摄像头下,或者是在不同时间点出现在同一摄像头下。待查询的人可以由图片、视频甚至是文本来表示。

如下图所示,行人检测系统对原始视频帧(监控数据)进行处理,得到大量的行人图片,构成Gallery。我们将待检索行人图片Cam 1称为probe,然后分别对probe和gallery进行特征提取,对它们的特征进行相似度度量,并按照相似度进行排序,相似度越高的图片则越可能是待检索行人图片。

浙江大学罗浩博士《基于深度学习和行人重识别》

下图给出了一个检索结果的示例。此处的Query指待检索的人,rank1~rank10是gallery中和Query相似度最高的前10张图片。

在这里插入图片描述



Re-ID系统



Re-ID系统的构成

在这里插入图片描述

Re-ID系统的输入为原始视频帧和待检索行人图像probe,需要经过行人检测生成大量行人图片构成gallery,然后通过行人重识别对gallery和probe进行特征提取,对特征进行相似度度量,最后给出按照相似度排序的结果。相似度排名越靠前,则该图片是待检索行人图片的概率就越大。



如何构建Re-ID系统

Re-ID是指跨多个监控摄像头的行人检索问题。通常,针对特定场景构建人员Re-ID系统需要五个主要步骤(如图1所示)。

在这里插入图片描述


步骤1

:

原始数据收集

:从监控摄像头获取原始视频数据是实际视频调查的首要要求。这些摄像机通常在不同的环境下位于不同的地方。最可能的是,这些原始数据包含了大量复杂和嘈杂的背景杂波。


步骤2



边界框生成

:从原始视频数据中提取包含人物图像的边界框。 通常,在大规模应用中不可能手动裁剪所有人物图像。边界框通常是通过人员检测或跟踪算法获得的。


步骤3

:

训练数据标注

:标注跨摄像头标签。由于训练数据的跨相机变化较大,训练数据注释对于判别性的再识别模型学习是必不可少的。在大的域间差异存在的情况下,我们经常需要在每一个新的场景下对训练数据进行注释。


步骤4



模型训练

:使用先前带注释的人员图像/视频训练具有区别性和鲁棒性的Re-ID模型。 此步骤是开发Re-ID系统的核心,也是文献中研究最广泛的范例。 已经开发了广泛的模型来应对各种挑战,集中在特征表示学习,距离度量学习或它们的组合上。


步骤5

:

行人提取

:测试阶段进行行人提取。给定一个感兴趣的人(查询)和一个图库集,我们使用在前一阶段学习的Re-ID模型提取特征表示。通过对计算出的查询到库的相似性进行排序,可以获得检索到的排名列表。一些方法也研究了排名优化,以提高检索性能。

根据上述五个步骤,我们将现有的Re-ID方法分为两个主要趋势:closed- world settings和open-world settings,如表1所示。分五个方面逐步比较

1)单模态vs异构数据:对于第1步中的原始数据收集,所有人员均由在封闭环境设置[5],[8],[31],[42],[43]中由单模态可见光摄像机捕获的图像/视频表示[44]。 但是,在实际的开放世界应用程序中,我们可能还需要处理异构数据,例如红外图像[21],[60],草图[61],深度图像[62]甚至是文字说明[63]。

2) 边界框生成vs原始图像/视频:对于第2步中的边界框生成,封闭世界人物Re-ID通常基于所生成的边界框执行训练和测试,其中边界框主要包含人的出现信息。 相反,一些实用的开放世界应用程序需要从原始图像或视频中进行端到端人员搜索。 这导致了另一个开放世界的主题,即端到端人员搜索。

3) 足够的带注释的数据vs不可用/受限标签:对于第3步中的训练数据注释,封闭世界人员Re-ID通常假定我们有足够的带注释的训练数据用于有监督的Re-IDmodel训练。但是,在每个新环境中为每个摄像机对添加标签注释会浪费时间并且需要大量劳动,从而导致高昂的成本。 在开放环境中,我们可能没有足够的带注释数据(即,有限的标签),甚至没有任何标签信息。 这激发了对无监督和半监督Re-ID的讨论。

4) 正确的注释vs嘈杂的注释:对于第4步,存在的封闭世界人物Re-ID系统通常假定所有注释都是正确的且带有干净的标签。但是,由于注释错误(例如,标签噪声)或检测结果不完善,注释噪声通常是不可避免的。 定位/跟踪结果(即样本噪声,部分Re-ID)。 这就导致了在不同噪声类型下对鲁棒Re-ID的分析。

5) 查询存在于Gallery vs 公开集:在行人检索阶段(第5步),大多数现有的封闭世界的每人Re-ID作品都假定查询必须通过计算CMC 和mAP [5]在图库集中进行。 但是,在许多情况下,查询者可能不会出现在图库集中,或者我们需要执行验证而不是检索。 这使我们进入了开放式的Re-ID。



如何评估Re-ID系统



常用数据集

下图给出了11个图像数据集,它们在行人重识别领域得到了广泛的使用。(VIPeR ,iLIDS,GRID ,PRID2011 ,CUHK01-03 ,Market-1501,DukeMTMC,Airport和MSMT17)和7个视频数据集(PRID-2011 ,iLIDS-VID ,MARS ,Duke-Video , Duke-Tracklet ,LPW和LS-VID)。

常用数据集



评估指标

累积匹配特性(CMC)和平均平均精度(mAP)是Re-ID系统两项广泛使用的度量。

CMC-k(Rank-k matching accuracy)表示正确匹配出现在排名靠前的检索结果中的概率。 当每个查询只有一个事实时,CMC是准确的,因为它仅考虑评估过程中的第一个匹配项。 但是,图库集通常在大型摄影机网络中包含多个ground truth,并且CMC无法完全反映模型在多个摄影机中的可分辨性。

另一个指标,即平均平均精度(mAP),使用多种标准来衡量平均检索性能。 它最初广泛用于图像检索,对于Re-ID评估,它可以解决两个系统在搜索第一个ground truth时表现相同的问题,但对其他困难具有不同的检索能力。

考虑到训练Re-ID模型的效率和复杂性,一些近期的工作还报告了每秒浮点操作(FLOP)和网络参数大小作为评估指标。 当训练/测试设备的计算资源有限时,这两个指标至关重要。



参考文献

1.浙江大学罗浩博士于2018年10月录制的《基于深度学习和行人重识别》

2.Deep Learning for Person Re-identification:A Survey and Outlook



版权声明:本文为qq_39220334原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。