科学进步和预算流程都不能等待计算引擎和互连路线图。在某些时候,HPC 中心的超级计算机升级节奏很难改变,你可以随时获得最好的超级计算机,而你尽量不要与能够购买的竞争对手的 HPC 中心买软糖。一两年后的机器。
购买预兆级系统并在两年前安装它(正如意大利 CINECA 中心对其 Leonardo 系统所做的那样)的好处是,这是一个完美的时机多花一点钱为 Leonardo 添加相当多的混合精度计算,以扩展其实用性。
这就是 CINECA 目前正在做的事情,有趣的是,对 Leonardo 具有合理的可见性Nvidia 和 AMD 的当前、即将推出和未来的 GPU 加速器,现在是尝试在一些同样擅长 HPC 处理的 AI 处理上进行大量讨论的最佳时机。
CINECA 是Consorzio Interuniversitario del Nord est Italiano Per il Calcolo Automatico 在意大利语中听起来比英语中的“意大利东北部高性能计算大学联盟”更性感。它成立于 1969 年,与世界上许多 HPC 中心一样,它的第一台超级计算机是 Control Data CDC 6600,这当然是由传奇人物 Seymour Cray 从 1962 年开始设计的。1974 年,即 CINECA 成立几年后,以米兰为中心的欧洲经济强国之一的意大利伦巴第大区成立了另一个学术超级计算联盟 Consorzio Interuniversitario Lombardo per lElaborazione Automatica,并于 2013 年 CINECA 和 CILEA 合并,创建了我们所熟知的 CINECA今天。
Leonardo 系统位于博洛尼亚 Technopole 数据中心,该数据中心由建于 1952 年的旧烟草工厂改建而成,是一款混合超级计算机,与欧洲超级计算高层的大多数机器一样。但它是一种与美国、中国和日本通常构建的高端系统不同的混合方式。欧洲 HPC 系统不会在节点内进行混合计算,而是在整个机器的各个分区之间进行混合计算。
例如,橡树岭国家实验室的 Summit 和 Frontier 以及劳伦斯利弗莫尔国家实验室的 Sierra 和 El Capitan实验室的节点将CPU和GPU以一定的比例组合在一起,然后机器中的所有计算节点看起来都是一样的。如果您需要仅 CPU 计算(这种情况确实发生),您只需忽略节点中的 GPU。
欧洲有许多前百亿亿次系统,但肯定不是所有系统都具有不同类型的计算架构仅具有 CPU 计算的模块和在其他 CPU 主机内具有 GPU 计算的增强器模块。芬兰 CSC 的 Lumi 超级计算机采用了这种混合方法,德国 Forschungszentrum Jlich 的 Juwels 超级计算机也采用了这种混合方法。这些是由 Atos(以前称为 Bull,现在被分拆为 Eviden)制造的前百亿亿次机器。正如我们最近在谈论其新的模块化数据中心时所报道的那样,未来的 Jupiter 百亿亿次级超级计算机将进入 FZJ,这将是欧洲第一台百亿亿次计算机,也采用这种混合集群方法。它也是由 Eviden 构建的。
这并不是一个详尽的列表,而是说明性的,它还说明了一些 HPC 中心相信采用模块化方法来实现 HPC 和现在的 AI 的原则集群,以便该集群的某些部分可以根据需要独立升级或扩展。您牺牲了可以承受同质性的性能规模,但您获得了系统如何随时间扩展的灵活性,这对于预算较小但工作负载需求比一些大型超级计算机更加多样化的 HPC 中心非常重要CINECA 的 Leonardo 机器有一个以数据为中心的模块,我们称之为通用计算模块,有 1,536 个节点和一对 56 核 Sapphire Rapids Xeon SP-8480处理器运行频率为 4.8 GHz,配备 512 GB 内存、8 TB NVM-Express 闪存和三个 100 Gb/秒 HDR InfiniBand 网络接口。该机器仅包含 CPU 的部分额定峰值约为 9.4 petaflops,在用于对超级计算机进行排名的高性能 LINPACK 基准测试中可提供 7.8 petaflops。
Leonardo 的增强模块由 3,456 个节点组成基于 Intel Ice Lake Xeon SP-8358 CPU,该 CPU 有 32 个内核,每个内核运行频率为 2.6 GHz,并配有四个 64 GB 的 Nvidia Ampere A100 GPU,可为 Leonardo 系统执行大部分计算。Leonardo 的助推器模块具有 306.3 petaflops 的峰值性能,并在 13,824 个 A100 GPU 上的 HPL 上提供 241.2 petaflops。
Leonardo 系统耗资 2.4 亿美元(按当前汇率计算为 2.67 亿美元),资金来源:EuroHPC 联合项目和意大利大学与研究部。这给我们带来了 EuroHPC JU 上周晚些时候开放招标的 2820 万美元(3130 万美元)升级,以及欧盟必须开发和运营人工智能工厂的新任务。
升级,被称为莱昂纳多改进超级计算架构(LISA)的项目由意大利政府和 EuroHPC JU 共同资助,其中意大利政府承担 65% 的成本,EuroHPC JU 承担 35% 的费用。如果 LISA 必须超出这一预算,意大利将承担责任或削减系统规模。无论是谁竞标系统,都必须能够接受付款的意思,啊,才能建设LISA扩展,并在2025年8月之前通过验收。升级必须在明年4月之前交付,并在明年7月之前安装,因此验收期为简而言之。
如果您想对其进行投标,这里是博洛尼亚科技城数据大厅中用于 LISA 扩建的空间:
根据投标要求,您可以在此处阅读,LISA 分区必须包含至少 165 个节点,节点内的 GPU 具有内存一致性,并且节点中必须有 8 个 GPU,正如 CINECA 所说,这是最先进的。每个 GPU 必须具有至少 80 GB 的 HBM 内存。主机节点必须有两个 X86 CPU,并且必须有至少 1 TB 的主内存,并且所有内存插槽都被占用,以使 CPU 的可用内存通道饱和。(对不起,Arm 朋友们,但就 CPU 而言,Leonardo 是一台 X86 机器。)该节点必须为节点操作系统提供超过 800 GB 的闪存,为应用程序提供超过 3 TB 的存储空间。
<在互连方面,每个 GPU 必须有一个网络接口,并且由于该分区将用于 AI 训练,因此每个端口必须提供 400 Gb/秒的速度。用于链接 LISA 节点的结构也必须基于 400 Gb/秒技术(可以是 InfiniBand 或以太网),它必须支持 RDMA,并且 MPI 点对点跃点的平均延迟必须为小于3微秒。该结构必须支持胖树和蜻蜓拓扑。当我们阅读所有这些内容时,我们看到的是带有原始 Hopper H100 GPU 加速器的 DGX H100 克隆的 165 个节点将完成只要它具有 400 Gb/秒 Quantum-2 交换结构即可。唯一的问题是,基于使用 80 GB 的 H100 的 HGX H100 节点,每台服务器的价格为 335,000 美元,当预期预算达到时,您正在谈论购买服务器及其网卡(不是 InfiniBand 交换机和电缆)的 5530 万美元包括网络在内的整机费用为3120万美元。除非一些 OEM 想要以清单中 50% 的价格出售机器,或者意大利政府愿意增加 241 亿美元并支付 InfiniBand 交换机的费用,否则从预算的角度来看很难看出这将如何实施。
如果您改用容量为 141 GB 的 H200 GPU,您将能够完成 1.6 倍到 1.9 倍的人工智能训练和推理工作,但设置成本会更高。(目前很难说 H200 定价的变化莫测。)
通过转向 Blackwell B100 GPU 加速器,您可以获得 180 GB 或 192 GB 内存,具体取决于您选择哪一个,并且您可以将基于 Hopper GPU 的 LISA GPU 集群的原始性能提高一倍以上,但节点的成本会增加到 1 倍以上。H100 80 GB 的标价约为 22,500 美元,B100 180 GB 的标价约为 30,000 美元,192 GB 的标价可能为 35,000 美元。明年,内存更大的 Blackwell GPU 的成本将会更高。Blackwell 节点的价格为 435,000 美元,每个 GPU 具有 192 GB HBM。这将是 7180 万美元,意大利政府必须额外提供 4060 万美元。
还有另一种选择。Nvidia DGX A100 系统使用 8 个在内存中互连的 Ampere A100 GPU,标价为 199,000 美元,而 OEM 的市场售价可能接近 175,000 美元。A100s 提供 80 GB 选项,因此可以满足 RFP。计算一下,如果没有 InfiniBand 交换机和电缆,带有服务器主机的 HGX A100 的 165 个节点的系统成本将达到 2890 万美元。但这是一个 N-2 系统,即使它与现有的 Leonardo 助推器模块兼容,也没什么值得吹嘘的。
由 165 个节点组成的 Ampere 集群将完成大约四分之一的人工智能工作。Blackwell 节点在任意给定精度下的数量,当您转向较低分辨率的浮点数学时,数量会更多,以提高整体效率。Blackwell GPU 的内存容量约为 3 倍,这意味着您可以少购买三分之一的节点来获得内存中相同的模型参数。
最后一个选择是去 AMD 并尝试获取 Antares InstinctMI300X GPU 加速器以及用于 LISA 集群的 Genoa Epyc 9004 处理器。我们估计,配置相同 1 TB 内存以及相同闪存和网络接口的八路节点的成本可能为 290,000 美元。基于这些 AMD 计算引擎(但不包括交换机和电缆)的 165 个节点集群将花费 4870 万美元,意大利将不得不为超出的预算额外支付 1750 万美元。根据 AMD 堆栈当前的软件性能,该系统的每个 GPU 价格为 192 GB,并且具有与 141 GB 的 H200 大致相同的 AI 推理和训练性能。
我们不确定为什么人们会这样做EuroHPC JU 和 CINECA 认为他们可以用比我们上面概述的更少的钱获得 GPU 加速系统,或者为什么他们将节点数设置为 165,而不是要求 FP16 和 FP64 精度下的特定峰值性能,然后看看有多少个节点在给定的成本下需要达到这个目标。
LISA RFP 中的要求与 GPU 定价的实际情况存在很大的阻抗不匹配。我们认为 HPC 商店已经习惯了能够以成本或低于成本的价格获得系统,他们认为这是正常的。如果是的话,那肯定不再是了。