对于这个问题,地平线架构师刘景初在线上分享中提到,其实关键是要找到2D检测结果在BEV空间的映射关系,且这些映射关系要在不同的场景下表现得足够鲁棒,这是比较难的,需要很多后处理规则。
3、如何处理“脑补”出来的预测结果?
在BEV空间做目标检测时,对于被遮挡区域,感知模型会根据先验知识,“脑补”出被遮挡部分的目标。这种“脑补”的功能,无疑是非常令人惊喜的,地平线的架构师刘景柱在一次线上分享中,认为这种想象力是“一种感知范式的转变”。
那么对于“脑补”出的感知结果,到底如何使用才能最大化发挥其作用呢?
业内专家普遍认为,对于神经网络所“想象”出来的感知结果,应该和实际看到的感知结果做好区分,比如可以让感知结果输出时带一个“置信度”的标签,告诉下游这个结果到底是实际看到,还是“脑补”出来的。
对于下游而言,对不同置信度的结果的“可信赖度”是不同的,使用的时候也会做好甄别,比如对低置信度的感知结果使用时会做一些限制。
刘景初在线上分享时提到,对于低置信度的感知结果,只能用一些比较粗糙的信息,比如车道线是不能用的,但是如果前面有个路口,能看到人行横道,那么大概率两边会有延伸出去的道路,这个感知结果就是可以用的。
毫末智行的潘兴也认为,复杂拓扑结构道路环境下,“脑补”出的车道线准确度很一般,“经常出错,比如会在小路口时“脑补”将车道线延长,或者将待转区的线“脑补”成了车道线”,对于这类识别结果,毫末的选择是不使用,甚至直接选择不输出这些“脑补”的车道线感知结果。
鉴智机器人的朱政认为,“脑补”出的结果,可以作为隐变量或者放在隐空间存储起来,交给模型自行判断使用,而不去加太多人为规则去约束。
4、时序融合有什么用处?
在BEV空间内,进行时序融合后形成的4D空间,除了上述提到的可以实现对暂时被遮挡的物体有更好的跟踪效果外,还可以更方便地对运动物体进行测速和运动预测。
测速
除了像毫米波雷达这种自带测速功能的传感器外,其他传感器基于某一时刻的信息去做测速是很困难的,而融入了时序信息后,视觉就可以实现稳定地测速。
在2D图像空间内,一般采用光流法(Optical Flow)进行测速。
光流法,是在视频流中,利用上一帧代表同一目标物的像素点到下一帧的移动量,从而计算出目标物的运动速度的方法。
根据进行光流估计时图像的选取点是稀疏还是稠密,可以将光流估计分为稀疏光流(Sparse Optical Flow)和稠密光流(Dense Optical Flow),如下左图的稀疏光流为选取了明显的特征点进行光流估计,右图为连续帧稠密光流示意图。
稠密光流描述图像中每个像素向下一帧运动的方向和速度,为了便于识别,用不同的颜色和亮度表示光流的大小和方向,如黄色代表向下运动,紫色代表向上运动,速度越快颜色越深。