设计擎天柱的手部时同样从生物学生吸取灵感。通过6个执行器,让擎天柱的手可以实现11个自由度的移动,并且可以拿动20磅的重量,并且可以操作一些器械,或者抓取小型物体。
特斯拉的技术专家在现场讲到,汽车就是轮式机器人,擎天柱某种程度上只是把汽车立起来了。
在机器人的行动方面,擎天柱使用特斯拉电动车同样的神经网络——“占用网络”来识别可行驶区域。
特斯拉Optimus采用占用网络识别
在行走方面,软件在感知和分析外部环境后,会画出行驶轨迹,然后根据轨迹规划出每个脚的落脚点,然后再让执行器执行。
人形机器人的一个重点就是保持直立状态,不能轻易就倒地。如何做到?通过传感器和对外界的情况进行感知,当受到外部影响的时候能够自行调节控制器的扭矩并最终让它保持平衡。
抓取方面,特斯拉先通过对人的抓取行为的动作进行轨迹数据采集,然后再映射到机器人身上,从而让它能够进行一些抓取动作。
特斯拉Optimus通过真人动作抓取来模拟动作
未来,特斯拉希望让擎天柱变得更加灵活,希望从原型机能够走的更远,让它在各方面都进行改善,拥有更好的导航、行动能力等。
02.
发力自动驾驶 年底具备全球推出FSD能力
自动驾驶方面,特斯拉首先介绍了FSD的情况。2021年,FSD测试有2000客户参加。2022年扩展到了16万客户。特斯拉目前积累了480万段数据,训练了7.5万个神经网络,并在此基础上推出了35个FSD的版本更新。
自动驾驶技术架构方面,特斯拉的做法是先用自动化的数据标注系统对收集的数据进行自动标注,然后对数据进行处理后,来训练神经网络,然后将AI模型部署到FSD计算机中,通过计算来算出对外部环境的感知结果并算出本车的行驶规矩。
技术展示方面,特斯拉首先展示了一下无保护左转能力。比如在左转的时候有行人和其他车辆,特斯拉在考虑到不同交通参与者的行驶轨迹后,算出了最合适的行驶轨迹。
特斯拉FSD系统应对无保护左转
具体呢,特斯拉使用了一个名为交互搜索的技术。
首先从视觉感知开始,去感知交通参与者,然后去推测他们的行驶轨迹,然后生成几种策略,最后再选择出最佳的行驶轨迹。
特斯拉交互搜索技术架构
这里需要注意,外部目标如果越来越多,需要的计算量也会越来越大。
特斯拉通过环视摄像头来对外界进行感知,生成3D环境,并通过占用网络来找到可行驶区域,并知道哪些是障碍物。
工作时候,第一步是先对摄像头的图像进行校准,把图像整合在一起就形成了3D空间,将数据进行提取,输入到神经网络里,通过相应的算法就构建空间特征。
基于视觉数据构建3D空间
这里有个问题,仅仅生成了3D空间后,没有各种物体的精确位置,依然无法进行路径规划。所以特斯拉的做法是通过对关键特征进行分析来算出位置数据。
特斯拉的车队在日常行驶中积累了很多视频片段。每个视频有何多帧图像,需要14亿帧才能训练一个神经网络,需要使用10万个GPU工时(1个GPU工作1小时),训练量很大。
这里就需要使用超级计算机和AI加速器。这也是特斯拉为啥自己搞了Dojo超算的原因,能够提升30%的网络训练速度。
其他交通参与者的行为预测方面,特斯拉也介绍了一下自己的做法。
摄像头的画面会先进入到RegNet网络,处理之后的数据再进入Transformer模型之中。可能有10亿个参数,对他们进行共同的优化。想要实现的是最大程度实现算力,尽量减少延迟。