为了阐明这种差异,请考虑图3中所示的示例,两个跟踪器A和B为一个真实轨迹g计算4个不同的标识,跟踪器A在前150帧提交3个标识切换,同时为剩下的150帧保持一致的标识,另一方面,跟踪器B在前150帧保持一致的标识,但在后150帧提交3个标识切换,我们的指标报告跟踪者a的得分为0.3(图3a),跟踪者B的得分为0.67(图3b),与此同时,IDF1和经典度量对两个跟踪器分别报告了“0.5”和“3身份切换”的得分,按照现有的度量标准,跟踪器A和跟踪器B被认为是同样有效的。
它们既没有突出追踪者A的无效,也没有突出追踪者B在以一致的身份覆盖足够部分的真实轨迹方面的能力。因此,IDEucl更适合于判断估计的行人运动质量,因此,为了表述这个度量,我们通过构造一个二部图G = (U, V, E)来执行一个全局假设到真实匹配,如果两个“规则”节点在时间上重叠,则由一条边e连接,重叠由 定义
考虑τt, ht是t时刻的任意真实和假设轨迹,δ定义为:
图M RN 1的每条边E RN上的代价表示为图像空间中两个连续的“规则”节点的时间关联之间的距离,特别地,一条边的代价被定义为,
其中d为图像坐标空间中的欧氏距离,在图像坐标空间中,为真值轨迹指定一个唯一的假设,该假设对真值的优势距离保持一致的同一性,我们采用匈牙利算法求解此最大权值匹配问题获得最佳(最长)假设,一旦我们获得了一个最佳假设,我们将度规C表述为最佳假设覆盖的图像坐标中ground truth的长度之比,
值得注意的是,这种成本函数的表述自然地根据每个ground truth轨迹在图像坐标空间中的距离来权衡其重要性。
5. 方法:头部检测与跟踪
在本节中,我们将阐述HeadHunter和HeadHunter-t的设计和工作原理。
5.1. HeadHunter
由于检测是目标跟踪的关键步骤,通过考虑我们检测到的对象的性质和大小,我们将HeadHunter设计得与传统的对象检测器不同,HeadHunter是一个端到端两级检测器,具有三个功能特征,首先,它使用Resnet-50骨干网使用特征金字塔网络(FPN)在多个尺度上提取特征,头部的图像在外观上是相同的,在拥挤的场景中,通常与无关的物体(通常是背景)相似,因此,受到头部检测文献的启发,我们在每个单独的fpn之上增加了一个上下文敏感预测模块(CPM)。
该上下文模块由4个Inception-ResNet-A块组成,具有128和256个滤波器,用于3 3卷积,1024个滤波器用于1 1卷积,由于在拥挤的场景中检测行人头部是一个检测许多小型相邻放置物体的问题,我们在所有金字塔层的特征上使用转置卷积来提高每个特征图的空间分辨率,最后,我们使用带有区域建议网络(RPN)的快速rcnn头生成目标建议,而回归和分类头分别提供位置偏移和置信度评分,我们提出的网络体系结构如图4所示。