在BEV空间中,可以把底层视觉静态感知到的深度预估,转化为路面上的高度信息。下图所示为一帧所感知到的结果,蓝色表示路面,高度比较低,红色表示凸起,红色越深表示高度越高,也能看到一些地面上的凸起物体,可以根据识别出来的物体类别进行后续的决策规划,如果是无法识别的异形物体,那么最安全的方式就是避开它。

BEV空间中的底层视觉感知
引自地平线架构师刘景初主题为“上帝视角与想象力——自动驾驶感知的新范式” 的线上分享
鉴智机器人推出的视觉雷达也是采用类似的原理,通过前向双目相机和环视相机产生深度信息生成稠密点云,并在BEV空间内进行目标检测。

鉴智机器人提出的视觉雷达算法架构
2)数据驱动
当然,底层视觉感知的深度估计也不是万能的,如果遇到一个没训练过的数据,可能在特征提取时就忽略了,所以,要解决这个问题的另一种方法就是数据驱动。
数据驱动依赖数据闭环工具链,各家也都开发了工具链系统,比如毫末智行的LUCAS、地平线的AIDI等。
3)多传感器冗余
在纯视觉不能保证百分之百安全的情况下,采用多传感器冗余的方案成为了众多主机厂的选择,尤其是激光雷达,是对视觉非常好的补充。车端装了激光雷达之后,由于有更高精度的数据,能给视觉提供更好的真值数据,也能更好地训练视觉算法。
就像均胜电子郭继舜在一次线上分享时提到的,在不能保证完全安全的情况下,系统设计时考虑传感器冗余、硬件堆料等是非常必要的,也是“系统设计的正义”。
2、BEV感知的挑战
总体而言,BEV是个全新的感知范式,向上下游(如定位和预测)都有很大的拓展空间,业内很多企业也都在积极探索实践中,但在实践中还有很多的挑战需要克服。
1)数据问题
上文也提到了,BEV感知中最具备挑战的还是如何获取更多维度的数据,以及产生更高质量的真值。加上Transformer本身的特性,为更好地发挥优势,其对数据量的要求也比传统卷积神经网络大得多,这就越发加剧了模型对数据的“饥渴”程度。
要应对这个挑战,一方面依赖车端影子模式持续不断地采集数据,另一方面也依赖云端系统去做数据挖掘和真值生成,这需要持续不断地去优化云端真值系统的算法。
此外,为了减少标注工作量,提升训练效率,自监督学习也开始被引入到云端系统中。
和有监督学习不同,自监督学习的真值信息不是人工标注的,而是算法自动构造监督信息(真值),来进行监督学习或训练。当前自监督学习已经被应用在数据挖掘、数据标注和神经网络的预训练中。