总结而言,本文的贡献如下(i)我们提出了一个新的数据集CroHD,带有注释的行人头部用于在密集人群中跟踪,(ii)我们提出了一个CroHD的基线头部检测器HeadHunter, (iii)我们开发了HeadHunter-t,通过扩展HeadHunter作为CroHD的基线头部跟踪器,(iv)我们提出了一个新的度量,IDEucl,以评估跟踪器在表示真值轨迹方面的效率,最后,(v)通过与CroHD上现有的三种最先进的跟踪器进行比较,我们证明HeadHunter-T是一个强有力的基线。
2. 相关工作
头部检测基准 头部检测最早的基准提供好莱坞电影中主题的ground truth头部注释,在最近,SCUT-Head和CrowdHuman数据集提供了拥挤场景中的人类头部注释,头部检测在人群计数和分析中也具有重要意义,Rodriguez等人介绍了通过头部检测跟踪的想法,他们的数据集由大约2200个头部注释组成,近年来,试图缩小检测与人群计数之间差距的研究作品激增,试图在拥挤的场景中产生假象的头部真实边界框。
头部检测方法 头部检测从根本上来说是一个多尺度和上下文目标检测问题的结合,多尺度的对象基于图像金字塔或特征金字塔进行检测,前者是需要多次图像前向传递的计算密集型任务,而后者在一次前向传递中生成多个金字塔,背景对象检测在人脸检测的文献中得到了广泛的研究,这些文献通过使用更大的接受尺寸的卷积滤波器来建模上下文,显示出了更高的检测精度,Sun等人将这种上下文和尺度不变量应用于头部检测。
跟踪基准和评估 多目标跟踪(MOT)的任务是跟踪视频序列中初始数量未知的目标,第一个用于跟踪人类的MOT数据集是PETS数据集,MOT基准的标准化后来提出,从那时起,它每年都在更新,涉及到更复杂的场景和日益拥挤的环境,最近,TAO数据集被引入用于多对象跟踪,它专注于跟踪2907个短序列中的833个对象类别,我们的数据集在每帧行人密度达到346人的拥挤环境中提出了跟踪的挑战。
为了在mot challenge数据集上评估算法,经典MOT指标和CLEAR MOT指标实际上已经被建立为量化性能的标准化方法,CLEAR度量提出了两个重要的评分MOTA和MOTP,分别是基于累积每帧精度和边界框精度的经典度量的简洁总结,最近,Ristani等人提出了ID度量,它根据跟踪器在Ground Truth轨迹最长时间内保持身份的效率来奖励跟踪器。
跟踪算法 在线多目标跟踪算法可以总结为:(i)检测,(ii)运动预测,(iii)亲和计算,(iv)关联步骤。基于R-CNN的网络已成为检测阶段的普遍选择,这是因为基于提议的检测器相对于单阶段检测方法的先天优势,在在线多目标跟踪算法中,Chen等人使用粒子滤波框架,根据每个粒子的外观分类评分来衡量其重要性,该评分由单独的网络计算,独立训练,早期的研究使用具有恒定V速度假设的顺序重要性抽样(SIS)来分配粒子的重要性权重,Henschel等人论证了单目标检测器在跟踪方面的局限性,并将头部检测器与行人检测器串联使用。然而,近年来,MOT的研究工作试图弥合跟踪和探测之间的差距通过统一的框架,其中最值得注意的是Tracktor,它演示了单独的对象检测器足以预测后续帧中的目标位置,受益于视频中的高帧率。
3. CroHD 数据集