首页 > 网络 > 网络热点

一文读懂BEV空间内的特征级融合

常驻编辑 网络热点 2022-07-12 特征   真值   空间   传感器   模型   图像   视觉   目标   数据   信息
xLJ拜客生活常识网


xLJ拜客生活常识网

xLJ拜客生活常识网

稀疏光流(左图)和稠密光流(右图 )xLJ拜客生活常识网


xLJ拜客生活常识网

在BEV空间内,因为能够直接获取到目标物体每帧下的具体位置信息,再加上前后帧的时间戳信息,就可以很容易求出目标物体的速度,“可以把根据位置信息得到的速度,再融合毫米波雷达提供的速度,这样结果会更准确,”一位行业内专家介绍道。xLJ拜客生活常识网


xLJ拜客生活常识网

毫末智行潘兴认为,也可以在模型训练时,把速度信息直接标注上去,让车端模型根据前后帧的信息自行推理出来,“有了4D信息后,速度的真值也比较容易获取,训练起来更容易一些”,潘兴说道。xLJ拜客生活常识网


xLJ拜客生活常识网

运动预测


xLJ拜客生活常识网

自动驾驶系统需要与道路上的交通参与者进行互动,并预测他们未来的行为,以便能正确做好自车的规划控制。xLJ拜客生活常识网


xLJ拜客生活常识网

云端有了4D时空信息,就像掌握了预知未来的“超能力”一样,可以准确地知道接下来每个目标物的运动轨迹,而用这些信息去训练神经网络,可以让模型根据过往的历史信息去预测目标物接下来的运动轨迹。xLJ拜客生活常识网


xLJ拜客生活常识网

传统算法会先做感知,再做运动预测,中间会人为增加很多规则来处理感知结果,这样一方面会增加很多人工逻辑,增加了后续调优的难度,另一方面处理时也损失了很多有效信息。而神经网络则直接从感知传递到运动预测,全部在BEV空间内完成,减少信息损失的同时,还可以端到端做优化,减少了人工逻辑,大大提升数据迭代的效率。xLJ拜客生活常识网


xLJ拜客生活常识网

此前也已经有一些端到端感知联合预测的实践。xLJ拜客生活常识网


xLJ拜客生活常识网

英国的自动驾驶创业公司Wayve和剑桥大学合作提出的FIERY网络,也是基于纯视觉的方法,通过端到端的方式,通过摄像头输入,直接在BEV空间预测每个目标的运动轨迹(motion trajectory),并给出了具体轨迹的概率。xLJ拜客生活常识网


xLJ拜客生活常识网

下图是FIERY BEV网络运动预测的示意图,上面两行为相机输入,最下面一行为BEV空间下的目标物的预测轨迹。xLJ拜客生活常识网


xLJ拜客生活常识网

xLJ拜客生活常识网

FIERY BEV网络运动预测的示意图xLJ拜客生活常识网


xLJ拜客生活常识网

下图为鉴智机器人和清华大学团队合作提出的BEVerse,以周视摄像头的视频流作为输入,就是在BEV空间内完成的多任务模型感知任务,除了动态感知和局部语义地图外,还进行了运动预测。xLJ拜客生活常识网


xLJ拜客生活常识网

xLJ拜客生活常识网

BEVerse的多任务模型架构xLJ拜客生活常识网


xLJ拜客生活常识网

5、在网格划分时,如何权衡大小、远近目标检测的矛盾?xLJ拜客生活常识网


xLJ拜客生活常识网

本质上,从2D图像到BEV空间的转化就是寻找一种映射关系,将2D图像的每个像素投射到3D空间,使图像的稠密语义信息在BEV空间得以完整保留。xLJ拜客生活常识网


xLJ拜客生活常识网

一般在BEV转化时,都会使用网格划分机制。xLJ拜客生活常识网


xLJ拜客生活常识网

具体转换过程,上文已经详细描述了,虽然转换过程的原理不难,但转化过程(如池化时)却非常消耗算力,主要是因为相机的特征点云密度非常大,比如200万像素的相机,每帧会生成200万个点特征点云,比激光雷达的点云密度要大得多。xLJ拜客生活常识网


xLJ拜客生活常识网

相关阅读:

  • 三只松鼠就模特妆容道歉:基于个人特征打造没丑化
  • 肾炎的表现有哪些表现(肾炎有什么明显的特征)
  • 道德特征有哪些(道德行为的特征是指)
  • 偏头痛有哪些症状(偏头痛特征性症状)
  • 重组停牌多久(股票重组停牌前共同特征)
  • 汉堡为什么叫汉堡(汉堡包的特征描述)
  • 为什么喜欢女生的脚(喜欢女孩子脚的男生的特征)
  • 梅花是哪里的(梅花简介与特征)
  • 肛瘘是什么(肛瘘外口特征)
  • 唐氏综合症是什么(唐氏儿孕期明显特征)
    • 网站地图 |
    • 声明:登载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述。文章内容仅供参考,不做权威认证,如若验证其真实性,请咨询相关权威专业人士。