
稀疏光流(左图)和稠密光流(右图 )
在BEV空间内,因为能够直接获取到目标物体每帧下的具体位置信息,再加上前后帧的时间戳信息,就可以很容易求出目标物体的速度,“可以把根据位置信息得到的速度,再融合毫米波雷达提供的速度,这样结果会更准确,”一位行业内专家介绍道。
毫末智行潘兴认为,也可以在模型训练时,把速度信息直接标注上去,让车端模型根据前后帧的信息自行推理出来,“有了4D信息后,速度的真值也比较容易获取,训练起来更容易一些”,潘兴说道。
运动预测
自动驾驶系统需要与道路上的交通参与者进行互动,并预测他们未来的行为,以便能正确做好自车的规划控制。
云端有了4D时空信息,就像掌握了预知未来的“超能力”一样,可以准确地知道接下来每个目标物的运动轨迹,而用这些信息去训练神经网络,可以让模型根据过往的历史信息去预测目标物接下来的运动轨迹。
传统算法会先做感知,再做运动预测,中间会人为增加很多规则来处理感知结果,这样一方面会增加很多人工逻辑,增加了后续调优的难度,另一方面处理时也损失了很多有效信息。而神经网络则直接从感知传递到运动预测,全部在BEV空间内完成,减少信息损失的同时,还可以端到端做优化,减少了人工逻辑,大大提升数据迭代的效率。
此前也已经有一些端到端感知联合预测的实践。
英国的自动驾驶创业公司Wayve和剑桥大学合作提出的FIERY网络,也是基于纯视觉的方法,通过端到端的方式,通过摄像头输入,直接在BEV空间预测每个目标的运动轨迹(motion trajectory),并给出了具体轨迹的概率。
下图是FIERY BEV网络运动预测的示意图,上面两行为相机输入,最下面一行为BEV空间下的目标物的预测轨迹。

FIERY BEV网络运动预测的示意图
下图为鉴智机器人和清华大学团队合作提出的BEVerse,以周视摄像头的视频流作为输入,就是在BEV空间内完成的多任务模型感知任务,除了动态感知和局部语义地图外,还进行了运动预测。

BEVerse的多任务模型架构
5、在网格划分时,如何权衡大小、远近目标检测的矛盾?
本质上,从2D图像到BEV空间的转化就是寻找一种映射关系,将2D图像的每个像素投射到3D空间,使图像的稠密语义信息在BEV空间得以完整保留。
一般在BEV转化时,都会使用网格划分机制。
具体转换过程,上文已经详细描述了,虽然转换过程的原理不难,但转化过程(如池化时)却非常消耗算力,主要是因为相机的特征点云密度非常大,比如200万像素的相机,每帧会生成200万个点特征点云,比激光雷达的点云密度要大得多。