2)时序融合更易实现
在BEV空间时,可以很容易地融合时序信息,形成4D空间。
在4D空间内,感知网络可以更好地实现一些感知任务,如测速等,甚至可以直接输出运动预测(motion prediction)给到下游的决策和规控。
3)可“脑补”出被遮挡区域的目标
因为视觉的透视效应,2D图像很容易有遮挡,因而,传统的2D感知任务只能感知看得见的目标,对于遮挡完全无能为力,而在BEV空间内,可以基于先验知识,对被遮挡的区域进行预测,从而“脑补”出被遮挡区域可能存在物体。虽然“脑补”出的物体,有一定“想象”的成分,但这对于下游的规控模块仍有很多好处。
4)更方便端到端做优化
传统做感知任务时,依次做目标识别、追踪和运动预测,更像是个“串行系统”,上游的误差会传递到下游从而造成误差累积,而在BEV空间内,感知和运动预测在统一空间内完成,因而可以通过神经网络直接做端到端优化,“并行”出结果,这样既可以避免误差累积,也大大减少了人工逻辑的作用,让感知网络可以通过数据驱动的方式来自学习,从而更好地实现功能迭代。
随着特斯拉和毫末智行等纷纷使用BEV空间转换,近期BEV也引起了行业内的高度关注,不过当前BEV的应用实践并不太多,业内专家仍有很多疑问,BEV感知的模型架构是什么?如何在BEV空间内做目标检测和模型训练?BEV语义感知地图是否可以代替高精地图?当前BEV仍有什么挑战?BEV的技术壁垒是什么?为什么有的公司可以这么做,而有的公司则不行?
带着这些问题,九章智驾采访了毫末智行的技术总监潘兴、纽劢科技的视觉专家符张杰、鉴智机器人研究总监朱政以及一些其他行业专家。
6、BEV感知需要什么样的架构
虽然每个公司使用的BEV感知架构可能不完全相同,但是大致架构类似。
第一步,先将摄像头数据输入到共享的骨干网络(Backbone),提取每个摄像头的数据特征(feature)。
第二步,把所有的摄像头数据(跨摄)进行融合,并转换到BEV空间。
第三步,在BEV空间内,进行跨模态融合,将像素级的视觉数据和激光雷达点云进行融合。
第四步,进行时序融合,形成4D时空维度的感知信息。
最后一步,就是多任务输出,可以是静态语义地图、动态检测和运动预测等,给到下游规控模块使用。

BEV感知架构
引用自地平线架构师刘景初主题为“上帝视角与想象力—自动驾驶感知的新范式” 的线上分享
值得一提的是,Transformer在CV领域的应用自2020年底就开始获得关注,随着2021年特斯拉在AI Day上公开其在FSD中使用了Transformer算法后,国内多家公司也纷纷开始将Transformer应用在感知系统中,如毫末智行、地平线、纽劢等。