编辑:昕朋
【新智元导读】没有什么问题是一台AI计算机解决不了的,如果有,那就用16台!
明星芯片企业Cerebras带着它餐盘大小的芯片来了,这次有16个!
更大、更快、更好用
周一,Cerebras公布了其用于深度学习的Andromeda AI超级计算机。据称,该计算机在16位半精度下能提供超过1 ExaFLOP,相当于每秒100亿亿次运算的算力!
Andromeda是一个由16台Cerebras CS-2计算机连接起来的集群,拥有1350万个AI核心,远远超过全球超算TOP500冠军Frontier的870万个核心。
该计算机还采用了18,176个AMD Epyc中央处理单元的芯片。
Andromeda由Cerebras晶圆级引擎Wafer Scale Engine(WSE-2)提供核心算力。
处理器是由被称为晶圆的硅盘制成的。在芯片制造过程中,一块晶圆被分割成几十个长方形,然后每个长方形被变成一个单独的处理器。
但是,Cerebras另辟蹊径,没有将晶圆分割成几十个小处理器,而是将其变成一个拥有数万亿晶体管的大处理器。
WSE-2是有史以来最大的芯片,包含2.6万亿个晶体管,组成85万个内核,面积超过46225平方毫米。Andromeda超级计算的芯片拼起来,有16个餐盘那么大!
相比之下,英伟达最大的GPU只有540亿个晶体管,面积为815平方毫米。
用大芯片赚足眼球后,Cerebras打起了Andromeda的三大招牌。
首先,Andromeda运行AI任务的设置非常简单。在严格的数据并行模式下,Andromeda实现了CS-2简易的模型分配,以及从1到16个CS-2的单键扩展。
Cerebras表示,用户只需3天时间,就可以在不对代码做任何改动的前提下,组装完成16个CS-2,进行AI任务处理。
其次,它的编程很简单。Cerebras的编译器处理了所有的细节和善后工作,用户只需输入一行代码,指定在多少个CS-2上运行,然后就大功告成了。
Andromeda可由多个用户同时使用,这意味着该超算不仅可以供一个用户从事一项工作,还可以同时服务于16个不同的用户从事16项不同的工作,工作效率和灵活度瞬间拉满。
更重要的是,这个系统展示了近乎完美的线性可伸缩性。
「近乎完美」的可伸缩性
近几年,神经网络的规模一直在稳步增长。在过去的一年里,OpenAI的GPT-3自然语言处理程序,一度以1750亿参数成为世界上最大的神经网络,后来很快被谷歌的1.6万亿参数模型Switch Transformer超过。
如此庞大的模型会遇到算力瓶颈问题,系统需求已经远远超出了单个计算机系统的处理能力。单个GPU的内存约为16GB,而GPT-3等模型所需的内存往往高达几百TB。
像过去一样,单纯进行简单粗暴的算力扩展,已经难以满足需求。
因此,系统集群变得至关重要。而如何实现集群,是一个最关键的问题。要让每台机器都保持忙碌,否则系统的利用率就会下降。