榨干GPU，AI存储进入200G

常驻编辑科普中国 2022-06-15 以太网节点负载文件系统对象性能阶段时代数据用户网络

200G HDR可以支持目前最高端的应用场景，比如脑映射。而且，现在的AI系统都是多GPU的，更高的速度，就可以支撑更多的GPU。这些因素，使得2022年，AI存储支持200G IB成为一个很大的优势。H8H拜客生活常识网

AI存储, 国外占优H8H拜客生活常识网

许多大型老牌供应商正在针对 AI 工作负载重新定位其分布式文件系统，同时我们还发现这个领域中涌现出多个新兴供应商。H8H拜客生活常识网

国外的一些存储公司，还针对AI推出AI一体机，其中比较有特色的是Pure Storage和DDN。H8H拜客生活常识网

Pure Storage的AI一体机叫AIRI，其早在2018年就发布，刚刚不久前发布了最新一代AIRI//S。H8H拜客生活常识网

其关键的AI存储采用自研的全闪Scale-out文件系统FlashBlade//S，采用自研NVMe盘，存储网络接口目前还是100G的RDMA以太网。H8H拜客生活常识网

Pure Storage的AI存储FlashBlade//S虽然相比上一代，存储介质从TLC转向QLC，性价比上更有优势，但可惜的网络接口依然是100G以太网，而且也不支持Nvidia的GPUDirect Storage (GDS)。Pure Storage的首席技术官Rob Lee说，一项人工智能工作的总工作时间包括搜索源数据集，寻找所需的子集，提取它，然后将它发送到GPU上。搜索和提取过程可能要比数据传输到GPU的时间长得多，而FlashBlade/S缩短了这一时间，而GDS仅仅是拥有更快的数据传输时间，不支持GDS对整体时间影响不大。H8H拜客生活常识网

但是，作为专做HPC存储的DDN，其推出的AI一体机叫A³I，其关键的AI存储基于开源的Lustre文件系统，目前最新的高端型号的AI400X2，也是采用NVMe SSD，但存储网络接口采用了200G HDR InfiniBand，并且支持GDS。H8H拜客生活常识网

我们看到，DDN的AI存储优选推荐InfiniBand而不是流行的以太网技术，而且已经开始规模采用200G HDR IB接口。H8H拜客生活常识网

国产厂商，迎头赶上H8H拜客生活常识网

国产厂商，推出类似Pure Storage这样的AIRI通用AI一体机的不多，但推出AI存储的厂商就很多了。H8H拜客生活常识网

比如华为，就专门推出了针对HPDA的OceanStor Pacific系列。H8H拜客生活常识网

其中高端AI场景，就需要采用Pacific最高端的全闪型号Pacific 9950了。但从华为官网宣传的规格看，目前Pacific 9950虽然同时支持以太网和IB，但是最高速率还是100G。H8H拜客生活常识网

反而国内专门做高性能文件系统的初创公司焱融科技，最近发布的全闪分布式文件存储一体机焱融追光 F8000X 系列，率先支持200G IB双端口，令人眼前一亮。H8H拜客生活常识网

焱融追光F8000X AI存储，除了是国内自研存储中第一个支持双端口200G HDR Infiniband接口外，还有其他什么特点呢？H8H拜客生活常识网

焱融追光，为“AI”而生H8H拜客生活常识网

从焱融科技的官网介绍看，追光F8000X系列，所有的特性都围绕AI场景而设计，可以说完全是一款为"AI"而生的专用存储。H8H拜客生活常识网

作为AI存储，性能是第一位的。追光 F8000X 搭载了第三代 AMD EPYC 计算平台(支持PCIe 4.0)和焱融高性能分布式文件存储系统 YRCloudFile ，采用全 NVMe SSD、InfiniBand 200G高速RDMA网络，性能表现强劲，可以充分榨干多GPU的带宽。H8H拜客生活常识网

软件方面，焱融追光 F8000X 从客户端到 Server 端做了全链路的优化（如提供Linux和Windows的高性能并发客户端），不仅能提供高 IOPS，还能提供更低的延迟，以及高带宽性能。在实际测试中焱融追光F8000X 每节点配置为两颗 CPU，32G X 8 内存，2块200Gbps HDR InfiniBand 网卡，存储节点（集群最少三节点起，这里只是为了方便，摊分到单节点看）测试数值如下：H8H拜客生活常识网

带宽性能H8H拜客生活常识网

IOPS 性能H8H拜客生活常识网

我们看到，结合 InfiniBand 强大的网络性能，追光 F8000X 取得了十分优异的性能测试数据。单个存储节点达到40GB/s 带宽、200万以上IOPS，80μs的时延，同时存储采用分布式架构，性能可以实现线性提升，在 6 存储节点时性能可达1000万 IOPS，210GB/s带宽，在高负载情况下能够保持130μs以内的延迟。H8H拜客生活常识网

除了性能，AI存储也需要讲究成本。从前面的AI负载分析我们可以看到，AI的数据集是非常庞大的，而且需要长期保持。但是，对存储性能要求最高的只是在训练和推理阶段，这两个阶段采用全闪的AI存储是合适的，但是如果数据归档也用全闪，成本就不划算了。而对象存储，是最适合作为归档存储的。焱融追光系列虽然不支持S3访问，不是一个对象存储产品，但是它支持智能分层到第三方对象存储的方式，有效解决了成本的问题。用户可以选择其他厂商的对象存储，或者采用公有云，配合焱融追光AI存储，支撑AI所有阶段对数据的存储和处理要求。

榨干GPU，AI存储进入200G

相关阅读:

热门信息

热门文章

最近发表

榨干GPU，AI存储进入200G

相关阅读:

猜你喜欢

热门信息

热门文章

最近发表