设计工具
应用程序

美光®固态硬盘,WEKA™,AMD EPYC™和超微

瑞恩·梅雷迪思| 2023年1月

沙巴体育结算平台 - 1115 - cs - tnr 用于WEKA集群节点的系统. 这些平台采用第四代AMD EPYC cpu以及PCIe®Gen5背板. 测试系统的具体情况如下:

\n

AMD第4代EPYC 9654P CPU(96核)

\n

12微米DDR5 4800MT/s rdimm

\n

10x 美光7450 NVMe固态硬盘

\n

2x 英伟达®Connectx®6 对200年gbe网卡

\n

我们利用美光DDR5 DRAM的优势部署了这个解决方案, 它提供了比上一代DDR4更高的性能和吞吐量以及更快的传输速度.

\n

我们还使用了美光7450 NVMe固态硬盘-采用美光176层CMOS在阵列(CuA)下构建。. 它结合了高性能和优质的服务, 提供卓越的应用程序性能和响应时间.

\n

对网络, 我们使用NVIDIA ConnectX-6 200Gbe网卡,每个存储节点2个网卡,每个客户端1个网卡. 我们建议在有可用的PCIe Gen5 400Gbe NVIDIA ConnectX-7网卡时使用它,以简化网络配置和部署,并具有类似的性能.

\n"}}' id="text-bb38e3a91c">

下一代AI存储:微米®ssd、WEKA™、AMD EPYC™和超微型计算机

对于超级计算2022,美光®数据中心工作负载工程团队, WEKA, AMD超微型计算机 携手成为第一个在WEKA AI工作负载分布式存储解决方案中测试第四代AMD EPYC平台的公司.

我们部署了一个解决方案,利用了最先进的硬件和软件,并使用了MLPerf™存储工作组的新基准来衡量其支持苛刻的人工智能工作负载的能力.

当我第一次在领英上发布这项工作时, 我了解到,这个团队是第一个大规模测试MLPerf存储的团队,也是第一个在AMD热那亚处理器上测试WEKA的团队. Liran Zvibel (WEKA的联合创始人兼首席技术官)评论道 他很高兴这个过程进行得如此顺利,“在一个全新的平台(新的PCIe®总线)上第一次运行通常会有一些困难”, 新CPU, 等).”

WEKA版本4 扩展其软件定义的存储堆栈,以提高每个节点的可伸缩性和性能, 这是利用下一代系统的必要条件. 根据WEKA的说法,它还:

数据平台是为NVMeTM和现代网络设计的吗.

提高带宽和IOPs的性能,减少延迟和元数据.

支持对本地或云中数据的广泛、多协议访问.

在不需要调优的情况下,对于混合工作负载和小文件是否比本地磁盘更快.

超微公司提供了其中的6个新沙巴体育结算平台 - 1115 - cs - tnr 用于WEKA集群节点的系统. 这些平台采用第四代AMD EPYC cpu以及PCIe®Gen5背板. 测试系统的具体情况如下:

AMD第4代EPYC 9654P CPU(96核)

12微米DDR5 4800MT/s rdimm

10x 美光7450 NVMe固态硬盘

2x 英伟达®Connectx®6 对200年gbe网卡

我们利用美光DDR5 DRAM的优势部署了这个解决方案, 它提供了比上一代DDR4更高的性能和吞吐量以及更快的传输速度.

我们还使用了美光7450 NVMe固态硬盘-采用美光176层CMOS在阵列(CuA)下构建。. 它结合了高性能和优质的服务, 提供卓越的应用程序性能和响应时间.

对网络, 我们使用NVIDIA ConnectX-6 200Gbe网卡,每个存储节点2个网卡,每个客户端1个网卡. 我们建议在有可用的PCIe Gen5 400Gbe NVIDIA ConnectX-7网卡时使用它,以简化网络配置和部署,并具有类似的性能.

Weka设备显示在黑色背景的微米固态硬盘旁边

基线结果

我们在12个负载生成客户机上测试了FIO性能,以测量最大系统吞吐量, 在所有客户机中,每个客户机的队列深度(QD)从1扩展到32.

1m顺序读吞吐量水平折线图(绿色)
1m顺序书写绿色横图

对于1MB的读和1MB的写,我们分别达到了142 GB/s和103 GB/s. 考虑到WEKA使用的擦除编码4+2方案,写吞吐量是惊人的. 这得益于AMD第四代EPYC CPU的极高计算性能和美光DDR5 DRAM的性能提升.

4k随机读iops绿色横图
4k随机写iops绿色横图

在随机工作负载上,我们测量了6.3百万4KB读IOPS和1.700万4KB随机写IOPS. 这反映了集群出色的小块随机性能, 这是由美光7450 NVMe 固态硬盘的性能和延迟以及WEKA对优于本地小块NVMe性能的关注所实现的.

AI/ML工作负载:MLPerf 存储

MLPerf存储基准测试旨在测试多个模型的人工智能训练的实际存储性能. 它使用测量的睡眠时间来模拟GPU请求数据所需的时间, 处理它, 然后请求下一批数据. 这些步骤创建了一个非常突发的工作负载,其中存储将在短时间内达到最大吞吐量,然后是睡眠. 这个AI基准有一些主要优势:

  • 是否关注AI/ML中的存储影响
  • 具有现实的存储和预处理设置
  • 不需要GPU加速器运行
  • 可以从种子数据生成每个模型的大数据集吗

我们测试了以下设置:

  • MLPerf 存储 v0.4(预览)
  • 工作内容:医学影像分割训练
  • 模型:Unet3D
  • 种子数据:KiTS19组图像
  • 生成的数据集大小:2TB (500GB x 4)
  • 框架:PyTorch
  • 模拟GPU: NVIDIA A100
显示吞吐速度的绿色和蓝色折线图

这个基准测试的一个重要方面是,每个MLPerf Process代表一个运行AI训练过程的单个GPU. Scaling up MLPerf storage processes reaches a maximum throughput of 45 GB/s; however, 每个进程的性能在288个进程左右开始下降. 该数据点代表288个同时运行Unet3D医学图像分割训练过程的NVIDIA A100 gpu, 或相当于36个NVIDIA DGX A100系统!

你想知道更多吗?

一定要查看以下资源:

存储解决方案架构总监

瑞安梅雷迪思

瑞安·梅雷迪思是美光存储事业部数据中心工作负载工程总监, 测试新技术,以帮助建立美光在人工智能和NVMe-oF/TCP等领域的思想领导力和意识, 以及全闪存软件定义的存储技术.