一文读懂BEV空间内的特征级融合

常驻编辑网络热点 2022-07-12 特征真值空间传感器模型图像视觉目标数据信息

xLJ拜客生活常识网

2）时序融合更易实现xLJ拜客生活常识网

xLJ拜客生活常识网

在BEV空间时，可以很容易地融合时序信息，形成4D空间。xLJ拜客生活常识网

在4D空间内，感知网络可以更好地实现一些感知任务，如测速等，甚至可以直接输出运动预测（motion prediction）给到下游的决策和规控。xLJ拜客生活常识网

xLJ拜客生活常识网

3）可“脑补”出被遮挡区域的目标xLJ拜客生活常识网

xLJ拜客生活常识网

因为视觉的透视效应，2D图像很容易有遮挡，因而，传统的2D感知任务只能感知看得见的目标，对于遮挡完全无能为力，而在BEV空间内，可以基于先验知识，对被遮挡的区域进行预测，从而“脑补”出被遮挡区域可能存在物体。虽然“脑补”出的物体，有一定“想象”的成分，但这对于下游的规控模块仍有很多好处。xLJ拜客生活常识网

xLJ拜客生活常识网

4）更方便端到端做优化xLJ拜客生活常识网

xLJ拜客生活常识网

传统做感知任务时，依次做目标识别、追踪和运动预测，更像是个“串行系统”，上游的误差会传递到下游从而造成误差累积，而在BEV空间内，感知和运动预测在统一空间内完成，因而可以通过神经网络直接做端到端优化，“并行”出结果，这样既可以避免误差累积，也大大减少了人工逻辑的作用，让感知网络可以通过数据驱动的方式来自学习，从而更好地实现功能迭代。xLJ拜客生活常识网

xLJ拜客生活常识网

随着特斯拉和毫末智行等纷纷使用BEV空间转换，近期BEV也引起了行业内的高度关注，不过当前BEV的应用实践并不太多，业内专家仍有很多疑问，BEV感知的模型架构是什么？如何在BEV空间内做目标检测和模型训练？BEV语义感知地图是否可以代替高精地图？当前BEV仍有什么挑战？BEV的技术壁垒是什么？为什么有的公司可以这么做，而有的公司则不行？xLJ拜客生活常识网

xLJ拜客生活常识网

带着这些问题，九章智驾采访了毫末智行的技术总监潘兴、纽劢科技的视觉专家符张杰、鉴智机器人研究总监朱政以及一些其他行业专家。xLJ拜客生活常识网

xLJ拜客生活常识网

6、BEV感知需要什么样的架构xLJ拜客生活常识网

xLJ拜客生活常识网

虽然每个公司使用的BEV感知架构可能不完全相同，但是大致架构类似。xLJ拜客生活常识网

xLJ拜客生活常识网

第一步，先将摄像头数据输入到共享的骨干网络（Backbone），提取每个摄像头的数据特征（feature）。xLJ拜客生活常识网

xLJ拜客生活常识网

第二步，把所有的摄像头数据（跨摄）进行融合，并转换到BEV空间。xLJ拜客生活常识网

xLJ拜客生活常识网

第三步，在BEV空间内，进行跨模态融合，将像素级的视觉数据和激光雷达点云进行融合。xLJ拜客生活常识网

xLJ拜客生活常识网

第四步，进行时序融合，形成4D时空维度的感知信息。xLJ拜客生活常识网

xLJ拜客生活常识网

最后一步，就是多任务输出，可以是静态语义地图、动态检测和运动预测等，给到下游规控模块使用。xLJ拜客生活常识网

xLJ拜客生活常识网

BEV感知架构xLJ拜客生活常识网

xLJ拜客生活常识网

引用自地平线架构师刘景初主题为“上帝视角与想象力—自动驾驶感知的新范式” 的线上分享xLJ拜客生活常识网

xLJ拜客生活常识网

值得一提的是，Transformer在CV领域的应用自2020年底就开始获得关注，随着2021年特斯拉在AI Day上公开其在FSD中使用了Transformer算法后，国内多家公司也纷纷开始将Transformer应用在感知系统中，如毫末智行、地平线、纽劢等。

一文读懂BEV空间内的特征级融合

相关阅读:

热门信息

热门文章

最近发表

一文读懂BEV空间内的特征级融合

相关阅读:

猜你喜欢

热门信息

热门文章

最近发表