一周前,英伟达发布智能汽车最强芯Thor,单片算力达到2000TOPS,性能相当于Orin的8倍,在相近精度下,算力几乎是前段时间被禁的A100的4倍。
更恐怖的是,Thor的出现直接把尚未问世的Atlan扼杀在摇篮里,这种卷王行为把业内人士都看傻了。
然而,话音未落,在三天后的投资者会议上,另一家芯片豪门高通也发大招,宣布推出“集成式汽车超算SoC” :Snapdragon Ride Flex,SoC外挂NPU的组合算力最高也将达到2000TOPS。
据说有高通工程师在朋友圈放话:这就是我们的回应,给这场算力争霸赛增添了一丝火药味。
英伟达与高通的隔空斗法,真实地反映了智能汽车在数字指标上日益严重的贫富不均——燃油车时代,即使是一台轩逸这样的买菜车,F1方程式赛车的马力也不过是其8倍;而在智能电动汽车上,旁边一辆车的算力可能会是你车的数十倍,甚至数百倍。
1、汽车芯片的算力,是怎么卷到2000T的?
近些年的智能驾驶发展史,某种程度上可以概括为芯片算力暴涨史。
2016年,因辅助驾驶致死事故和Mobileye分道扬镳的特斯拉,找到英伟达定制了计算平台 Drive PX2,算力为24TOPS[1]。一般来说,TOPS越高,每秒能进行的AI计算越多,能承载的人工神经网络性能也越好。
就像手机、电脑常常用芯片跑分作为卖点,在深度学习席卷汽车行业的浪潮中,TOPS成了衡量智能驾驶能力先进与否的*指标,英伟达CEO黄仁勋亦有名言:“TOPS就是新的马力”[2]。
今年CES展上,在算力层面吃过亏的Mobileye 发布算力为176T的EyeQ Ultra,相比EyeQ4提升50倍。同样,地平线今年即将登陆理想L8的J5芯片,算力亦高达128T,是J2芯片的34倍,唯恐落后于对手。
英伟达更是深谙算力即权力的游戏规则,继Drive PX2之后,英伟达在6年时间内发布了三代智能驾驶芯片,从Xavier、Orin再到Thor,算力实现从30TOPS到254TOPS再到2000TOPS的跃迁,每一代都是“芯皇”般的存在。
如果以Drive PX2为基准,10年内英伟达的智能驾驶芯片AI算力增长了83倍,比传统的摩尔定律还要快。
为什么智能驾驶芯片这么“丧心病狂”地堆算力?这当中,既有英伟达两年一更新芯片架构的努力,也有台积电不断提高芯片制程工艺极限的功劳,但更重要的是有市场,翻译过来就是,下游企业纷纷患上了算力饥渴症。
其一,智能汽车上的传感器规格与数量均在近几年有了飞跃,带来了数据的暴涨。
比如今年开始交付的蔚来ET7,全车搭载33个传感器,其中包括11枚800万像素高清摄像头,1个高精度激光雷达,5个毫米波雷达等,传感器每秒产生仅图像数据就达到8G,约等于一部90分钟的高清蓝光电影[3]。
为满足智能驾驶的实时处理需求,蔚来不得不启用4枚Orin组成算力1016T的计算平台——传感器太多导致数据爆炸,单芯算力已是应对不及。
同时,智能驾驶算法的“大模型化”,也让芯片算力愈发吃紧。
特斯拉FSD感知算法比早期的Autopilot算法复杂得多
去年,特斯拉率先在智能驾驶系统的感知模块中启用新型神经网络Transformer,相比于传统的CNN,Transformer性能大涨,可以帮助系统实现三维感知,并能拥有和人类一样的“记忆”能力。
特斯拉开路之后,Transformer迅速席卷行业,但它并非没有代价——参数极多,消耗计算资源大,长城汽车旗下的自动驾驶公司毫末智行就发现,“Transformer所需算力是CNN所需算力的100倍(在训练端)[4]。”
其次,汽车电子电气架构的集中化,也在催生超级芯片。
为了便于车内数据交互、降低总体成本,汽车行业正在竭力减少散落在车内各处的上百个ECU,将它们负责的计算任务整合到尽可能少的芯片中——汽车电子电气架构已由最早的分布式计算迭代到目前的域控计算,而下一代将是所需芯片更少的中央计算。
与之对应,“舱驾融合”的概念被提出来,这是一个*目标:一枚主芯片同时负责智能驾驶与智能座舱的计算任务(当然会有其他小芯片辅助)。而自动驾驶动辄上千T的算力要求,和车内动辄几块2K屏的大屏趋势,逼迫这枚芯片必须在性能上狂飙。
面对这些需求,英伟达在产品线上果断砍掉了去年发布的智能驾驶专用芯片—算力1000T的Atlan,以2000T算力的Thor取而代之,高通Flex平台紧急跟进,两家企业(在口头上)将智能汽车芯片送进了超算时代。
在分析英伟达制霸AI芯片市场,股价五年暴涨20倍的原因时,分析师们往往会草草地抛出一个观点:算力为王。车企们在宣传智能汽车时,也常常有意无意地向用户传达一种思想:算力越大越牛X。