4、BEV的发展历史
在了解BEV的技术细节之前,我们先来了解下BEV的发展历史。
传统方法的BEV空间转换方法,一般是先在图像空间对图像进行特征提取,生成分割结果,然后通过IPM(Inverse Perspective Mapping,逆透视变换)函数转换到BEV空间。
什么是IPM?
在前视摄像头拍摄的图像中,由于透视效应现象(想象从一个点去看世界,透视效应会呈现出近大远小的观察结果)的存在,本来平行的事物(比如车道线),在图像中却不平行。IPM就是利用相机成像过程中的坐标系转化关系,对其原理进行抽象和简化,得到真实世界坐标系和图像坐标系之间坐标的对应关系,并进行公式化描述,从而消除这种透视效应,所以叫做逆透视变换。

车道线的逆透视变换(IPM)
IPM是一种连接图像空间和BEV空间的简单直接的方法,只需要知道相机内外参数就可以。相机内参数,指的是与相机自身特性相关的参数,比如焦距、像素大小等,而相机外参数则是相机在真实世界坐标系中的参数,比如相机的安装位置、旋转方向等。
不过,IPM依赖一些预先的假设,比如地面平直性假设(地面要是平的),且相机和地面之间没有相对运动(车辆的俯仰角不变)。
很多时候这个假设太严苛了,很难满足,比如在颠簸道路上,或者在车辆加速或减速产生俯仰时,系统对目标物的感知结果波动非常大,会产生“忽近忽远”的跳变,平行的车道线,这时也会变成“内八”或者“外八”。
于是就有了改进方案,那就是将相机的实时位姿考虑进来,加上俯仰角的修正补偿后,再进行空间转换。改进后虽然效果有所改善,但是实时位姿也很难准确得到,所以效果并不理想。
这两年,深度学习也开始被应用于BEV空间转换,且逐渐成为主流方案。
相比于依赖人为规则,使用神经网络从2D空间进行BEV空间转换,能够取得更好的感知效果。
具体的流程是,先通过一个共享的主干网络(Backbone)来提取每个相机的特征(feature),然后再通过Transformer等将多摄像头数据,完成从图像空间到BEV空间的转换。在BEV空间内,由于坐标系相同,可以很方便地将图像数据和其他传感器数据(如Lidar、Radar等)进行融合,还可以进行时序融合形成4D空间,这也是当下BEV技术的大趋势。

毫末智行用于识别车道线的BEV时空融合感知网络
5、BEV空间内中融合的优势
相比于后融合和前融合,在BEV空间内进行中融合具有如下优势:
1)跨摄像头融合和多模融合更易实现
传统跨摄像头融合或者多模融合时,因数据空间不同,需要用很多后处理规则去关联不同传感器的感知结果,操作非常复杂。在BEV空间内做融合后,再做目标检测,算法实现更加简单,BEV空间内视觉感知到的物体大小和朝向也都能直接得到表达。