具体流程可以参考下图。

BEV感知模型的训练链路
值得一提的是,上述的链路,尤其是车端影子模式+云端真值系统相结合的方式进行模型迭代形成数据闭环,更像是个“理想链路”。受限于实现技术难度和合规性,目前真正能够实现完整闭环的玩家,可以说是少之又少。
当前更普遍的还是自建采集车队,用激光雷达+视觉的真值车去采集数据,做联合4D标注来进行模型训练和迭代,并部署到车端。
2、如何提升BEV感知精度?
对于感知任务而言,精度是下游非常关心的。
由于视觉先天在测距方面存在不足,在BEV空间内提升感知精度就成为了至关重要的,而这又和模型训练密不可分。
根据业内专家的实践经验,要想提高车端BEV感知模型的精度,一般从这三方面入手:
1)优化云端三维重建和标注模型
有监督学习模式下,训练数据真值的精度决定了所训练模型的精度上限。对于BEV感知模型而言,云端真值生成系统就是“老师”,要想提升车端BEV感知模型这位“学生”的水平,提升负责三维重建和自动标注的云端真值系统这位“老师”的水平是很重要的。
云端“老师”的三维重建功能,也是要经过数据进行训练的,为了让训练“老师”的数据有足够高的精度,一般会使用带激光雷达的真值车采集得到用于训练数据的真值。地平线的做法是,为了获取更好的重建效果,会使用真值车从不同的行驶方向采集同一个地点的数据。
除了提升用于训练“老师”的数据精度外,业内公司在使用云端真值系统进行离线感知任务时,会不惜算力做一些感知融合处理,如融合其他传感器数据(激光雷达、毫米波雷达等)和时序信息,从而获得完整的BEV空间的4D重建场景,以此作为真值来训练车端的网络。
如果车端回传的数据中有激光点云,数据精度会更高,效果也更好,如果没有激光点云, 也可以依赖视觉进行三维重建。据了解,基于视觉数据进行云端三维重建的数据精度,也是可以满足车端模型训练要求的。而且,由于当前激光雷达上车较少且位置差异较大,目前业内还是以视觉数据为主进行三维重建。
在BEV空间下标注时,为了提升标注效率和标注精度,也会先用云端真值系统自动标注做预处理,完成后再人工进行校验,使真值的精度达到近似人类驾驶员能达到的精度。
2)增加训练数据量
影子模式下,车端会设置很多触发器(trigger)的策略,采集有价值的数据回传到云端。
在云端进行数据挖掘后,找到有价值的corner case,然后重新去做真值生成,并通过数据驱动对车端网络进行训练迭代。
毫无疑问,训练数据所覆盖的场景越多,车端模型的泛化能力越强,感知精度也越高。相比于训练数据的数量,更重要的是数据的质量,也就是数据需要覆盖更多的极端场景,如不同的城市道路、不同的光照条件等。