Cerebras 正是为了解决这个问题。
与任何已知的基于GPU的集群不同,Andromeda在GPT级大型语言模型中展现了「近乎完美」的可伸缩性。在GPT-3、GPT-J和GPT-NeoX中,Andromeda的处理能力随CS-2数量的增加呈现了近乎完美的线性增长。
![](http://imgq8.q578.com/ef/1116/67b8ac6bd0645e24.jpg)
这意味着,在集群中每增加一台CS-2计算机,整体的训练时间会以近乎线性的趋势减少。
![](http://imgq8.q578.com/ef/1116/85621d69948e38bd.jpg)
做到这一点,离不开芯片与存储、分解和集群技术的协同工作。
Weight Memory & MemoryX:实现极速扩展
MemoryX是一种内存扩展技术,它使模型参数能够存储在芯片外,并有效地流式传输到 CS-2,实现同在芯片上那样的性能。
这一架构灵活性极强,支持4TB到2.4PB的存储配置,2000亿到120万亿的参数大小。
而通过软件执行模式Weight Memory,可以将计算和参数存储分解,使规模和速度得以独立且灵活地扩展,同时解决了小型处理器集群存在的延迟和内存带宽问题。
![](http://imgq8.q578.com/ef/1116/202d6864442868e5.jpg)
最终,WSE 2可以提供高达 2.4 PB 的高性能内存,CS-2 可以支持具有多达 120 万亿个参数的模型。
Cerebras SwarmX:提供更大、更高效的集群
这是一种人工智能优化的高性能通信结构,可将 Cerebras的芯片内结构扩展到芯片外,从而扩展AI集群,而且使其性能实现线性扩展。
![](http://imgq8.q578.com/ef/1116/95e4728112bc3ff3.jpg)
最终,SwarmX 可以将CS-2 系统从2个扩展到192 个,鉴于每个 CS-2 提供85万个 AI 优化内核,Cerebras 便可连接 1.63 亿个 AI 优化内核集群。
![](http://imgq8.q578.com/ef/1116/d8d734580d4fa907.jpg)
同时,Cerebras WSE-2基于细粒度数据流架构,其 85万个 AI 优化计算内核可以单独忽略零。
Cerebras 架构独有的数据流调度和巨大的内存带宽,使这种类型的细粒度处理能够加速所有形式的稀疏性。这些都是其他硬件加速器,包括GPU,根本无法做到的事情。
Cerebras表示,可以训练超过90%的稀疏性模型,达到最先进的精度。
目前,包括美国阿贡国家实验室、AMD和剑桥大学等多名用户已经使用了Andromeda超算系统,都对其近乎完美的线性可收缩性能力赞不绝口。
![](http://imgq8.q578.com/ef/1116/78944d85dcb8bc11.jpg)
其中,与阿贡国家实验室合作的基于HPC的COVID-19研究还入选有「超算领域的诺贝尔奖」之称的戈登·贝尔奖。
![](http://imgq8.q578.com/ef/1116/21925e88d04d00cf.jpg)
拥有世界最大的芯片和协同技术,Cerebras能否挑战目前超算Top 1的Frontier?我们拭目以待。
参考资料:
https://arstechnica.com/information-technology/2022/11/hungry-for-ai-new-supercomputer-contains-16-dinner-plate-size-chips/
https://www.forbes.com/sites/karlfreund/2022/11/14/cerebras-builds-its-own-ai-supercomputer-andromeda/?sh=2794ece11057