欧盟斥资 2800 万美元对 Leonardo 超级计算机进行人工智能升级 - HPCwire

2024-09-19 16:08:31 英文原文

世界第七快的超级计算机 Leonardo 正在进行重大升级,以承担人工智能工作负载。该组织表示,EuroHPC JU 正花费 2800 万美元升级 Leonardo,以包括新的 GPU、CPU 和高带宽内存,这将通过使其在执行人工智能任务时更加高效和精确来提高 Leonardo 的性能。

周四发布的征求建议书页面正在邀请公司竞标实施升级。

名为 LISA(Leonardo 改进的超级计算架构)的升级计划涉及添加一个新的分区来处理人工智能工作负载。

根据 Top500 网站的说法,Leonardo 被归类为前百亿亿次计算机,可提供 241 petaflops 的性能。

该系统安装在意大利博洛尼亚 Technopole,配备英特尔 Xeon CPU和 Nvidia A100 GPU。该系统由 Eviden/Atos 制造。

很难计算 Leonardo 将获得的性能提升,因为很大程度上取决于系统的相对功率效率。Leonardo 目前在 Green500 榜单上排名第 28 位,能源效率是采用新 AI 分区的 EuroHPC 的首要任务。

技术规范文件概述了系统的升级。

Leonardo 可以在新分区中,LINPACK 性能从 45 petaflops 提升到 65 petaflops。混合精度性能提升或 HPL-MxP 的范围可以从 300 petaflops 到 650 petaflops。

Leonardo 在 2024 年 6 月的 Top500 HPL-MxP 排名中排名第五,提供 1.842 exaflops 的性能。额外的 650 petaflops 的 HPL-MxP 可以使其超越 Lumi,排名第三,后者的 HPL-MxP 性能为 2.35 exaflops。通常情况下,实际性能与理论性能不符。

EuroHPC Lumi 和 Leonardo 并非专为 AI 设计,远远落后于排名第二的 Frontier,后者的 HPL-MxP 性能为 10 petaflops。

EuroHPC还希望新分区基于x86架构,并且至少有165个节点。每个节点至少需要 2 个 CPU 和至少 8 个能够进行训练的 GPU。每个节点必须至少拥有 1TB 内存。

特别是在 GPU 上,该文档提到 GPU 必须能够训练模型,并提供与同一节点中安装的所有其他 GPU 的内存共享。

此外,GPU HBM 内存必须至少提供 80 GB。这符合 AMD 和 Nvidia 的最新 GPU 的要求。

该系统已经围绕 Nvidia 的网卡、GPU 构建,并运行 CUDA 库。内存共享和软件要求使要求对 Nvidia 有利。

每个 GPU 将连接到一个网络接口卡,总接口连接速度为每秒 3.2 太比特。存储要求包括具有快速 IOPS 的 SSD。数据通常在配置支持的存储和内存之间快速移动。

EuroHPC JU 预计系统将于明年 4 月交付,安装将于 7 月完成。

EuroHPC采用模块化设计,使超级计算机更易于升级。例如,欧洲的超级计算机正在使用量子分区进行升级。

EuroHPC 的第一台百亿亿次超级计算机 Jupiter 现已安装并正在为 AI 进行设计。第二个百亿亿次系统名为 Alice Recoque,于今年早些时候发布。

摘要

世界第七快的超级计算机 Leonardo 正在进行重大升级,以承担人工智能工作负载。根据 Top500 网站的说法,Leonardo 被归类为前百亿亿次计算机,可提供 241 petaflops 的性能。特别是在 GPU 方面,该文档提到 GPU 必须能够训练模型,并提供与同一节点中安装的所有其他 GPU 的内存共享。该系统已经围绕 Nvidia 网卡、GPU 构建,并运行 CUDA 库。EuroHPC采用模块化设计,使超级计算机更易于升级。