一文读懂BEV空间内的特征级融合

常驻编辑网络热点 2022-07-12 特征真值空间传感器模型图像视觉目标数据信息

xLJ拜客生活常识网

稀疏光流（左图）和稠密光流（右图）xLJ拜客生活常识网

xLJ拜客生活常识网

在BEV空间内，因为能够直接获取到目标物体每帧下的具体位置信息，再加上前后帧的时间戳信息，就可以很容易求出目标物体的速度，“可以把根据位置信息得到的速度，再融合毫米波雷达提供的速度，这样结果会更准确，”一位行业内专家介绍道。xLJ拜客生活常识网

xLJ拜客生活常识网

毫末智行潘兴认为，也可以在模型训练时，把速度信息直接标注上去，让车端模型根据前后帧的信息自行推理出来，“有了4D信息后，速度的真值也比较容易获取，训练起来更容易一些”，潘兴说道。xLJ拜客生活常识网

xLJ拜客生活常识网

运动预测

xLJ拜客生活常识网

自动驾驶系统需要与道路上的交通参与者进行互动，并预测他们未来的行为，以便能正确做好自车的规划控制。xLJ拜客生活常识网

xLJ拜客生活常识网

云端有了4D时空信息，就像掌握了预知未来的“超能力”一样，可以准确地知道接下来每个目标物的运动轨迹，而用这些信息去训练神经网络，可以让模型根据过往的历史信息去预测目标物接下来的运动轨迹。xLJ拜客生活常识网

xLJ拜客生活常识网

传统算法会先做感知，再做运动预测，中间会人为增加很多规则来处理感知结果，这样一方面会增加很多人工逻辑，增加了后续调优的难度，另一方面处理时也损失了很多有效信息。而神经网络则直接从感知传递到运动预测，全部在BEV空间内完成，减少信息损失的同时，还可以端到端做优化，减少了人工逻辑，大大提升数据迭代的效率。xLJ拜客生活常识网

xLJ拜客生活常识网

此前也已经有一些端到端感知联合预测的实践。xLJ拜客生活常识网

xLJ拜客生活常识网

英国的自动驾驶创业公司Wayve和剑桥大学合作提出的FIERY网络，也是基于纯视觉的方法，通过端到端的方式，通过摄像头输入，直接在BEV空间预测每个目标的运动轨迹（motion trajectory），并给出了具体轨迹的概率。xLJ拜客生活常识网

xLJ拜客生活常识网

下图是FIERY BEV网络运动预测的示意图，上面两行为相机输入，最下面一行为BEV空间下的目标物的预测轨迹。xLJ拜客生活常识网

xLJ拜客生活常识网

FIERY BEV网络运动预测的示意图xLJ拜客生活常识网

xLJ拜客生活常识网

下图为鉴智机器人和清华大学团队合作提出的BEVerse，以周视摄像头的视频流作为输入，就是在BEV空间内完成的多任务模型感知任务，除了动态感知和局部语义地图外，还进行了运动预测。xLJ拜客生活常识网

xLJ拜客生活常识网

BEVerse的多任务模型架构xLJ拜客生活常识网

xLJ拜客生活常识网

5、在网格划分时，如何权衡大小、远近目标检测的矛盾？xLJ拜客生活常识网

xLJ拜客生活常识网

本质上，从2D图像到BEV空间的转化就是寻找一种映射关系，将2D图像的每个像素投射到3D空间，使图像的稠密语义信息在BEV空间得以完整保留。xLJ拜客生活常识网

xLJ拜客生活常识网

一般在BEV转化时，都会使用网格划分机制。xLJ拜客生活常识网

xLJ拜客生活常识网

具体转换过程，上文已经详细描述了，虽然转换过程的原理不难，但转化过程（如池化时）却非常消耗算力，主要是因为相机的特征点云密度非常大，比如200万像素的相机，每帧会生成200万个点特征点云，比激光雷达的点云密度要大得多。xLJ拜客生活常识网

xLJ拜客生活常识网

一文读懂BEV空间内的特征级融合

运动预测

相关阅读:

热门信息

热门文章

最近发表

一文读懂BEV空间内的特征级融合

运动预测

相关阅读:

猜你喜欢

热门信息

热门文章

最近发表