论文收录于CVPR2021
论文题目:
Tracking Pedestrian Heads in Dense Crowd
论文地址:
https://arxiv.org/abs/2103.13516
摘要
在拥挤的视频序列中跟踪人类是视觉场景理解的一个重要组成部分,不断增加的人群密度挑战了人类的可见性,限制了现有的行人跟踪器的可扩展性,以适应更高的人群密度,由于这个原因,我们提议用人群头部数据集(CroHD)来恢复头部跟踪,它由9个序列11463帧,超过2,276,838个头部和5230个轨迹注释在不同的场景中组成,对于评估,我们提出了一个新的度量,IDEucl,来衡量算法在图像坐标空间中最长时间内保持唯一标识的有效性,从而建立行人人群运动和跟踪算法性能之间的对应关系。
此外,我们还提出了一种新的头部检测器HeadHunter,用于拥挤场景下的小头部检测,我们用粒子过滤器和基于颜色直方图的重新识别模块扩展HeadHunter,用于跟踪头部,为了建立一个强有力的基线,我们将我们的跟踪器与CroHD上现有的最先进的行人跟踪器进行了比较,并证明了其优越性,特别是在身份保留跟踪指标方面,轻巧的头部侦测器和有效保存身份的追踪器,我们相信我们的贡献将有助于在密集人群中追踪行人。
1. 介绍
跟踪多个目标,尤其是人,是视觉场景理解中的一个核心问题,这一任务的复杂性随着需要跟踪的目标的增加而增加,并且仍然是一个开放的研究领域,与计算机视觉的其他子领域一样,随着深度学习的出现,多目标跟踪(MOT)任务自开始以来已经显著提高了其基准,在最近的过去,mot挑战基准的重点已经转移到跟踪密度更高的人群中的行人,应用于活动识别、异常检测、机器人导航、视觉监控、安全规划等领域,然而,跟踪器在这些基准上的表现显示出饱和趋势。目前,大多数在线跟踪算法都遵循基于检测的跟踪范式,一些研究工作已经证实,目标检测器的性能对跟踪器的性能至关重要,随着场景中行人密度的增加,行人的能见度随着相互遮挡的增加而降低,如图1所示,导致行人检测的减少。
为了应对这些挑战,同时在密集拥挤的环境中有效地跟踪人类,我们重新点燃MOT的任务,通过人类明显可见的部分—头部来跟踪人类,为此,我们提出了一个新的数据集,CroHD, Crowd of Heads dataset,由9个序列11463帧组成,头部边界框注释用于跟踪,我们希望这个新的数据集为未来有前途的研究提供机会,以便更好地理解密集人群中的全球行人运动,作为补充,我们开发了两个新的基线在CroHD上,一个头部探测器HeadHunter和一个头部追踪器HeadHunter- t,我们设计了专门用于拥挤环境中的头部检测的HeadHunter,与标准的行人检测器不同,并在现有的头部检测数据集上演示了最先进的性能。
HeadHunter-t扩展了HeadHunter的粒子过滤框架和用于头部跟踪的轻量级再识别模块,为了验证HeadHunter-T是一个强大的基线跟踪器,我们将其与三种在拥挤的mot挑战基准测试中表现最好的行人跟踪器进行了比较,并在CroHD上进行了评估,我们进一步在头部检测跟踪和身体检测跟踪之间进行比较,以说明我们的贡献的有效性。
为了建立跟踪算法和行人运动之间的对应关系,有必要了解各种跟踪器在成功表示真实行人轨迹方面的充分性,因此,我们提出了一种新的度量,IDEucl,以评估跟踪算法在图像坐标空间中对地面真相轨迹的最长长度保持相同恒等式的一致性,IDEucl与我们的数据集兼容,可以扩展到任何跟踪基准,用静态相机记录。