Venado:专为应对科学最大挑战而打造的 AI 超级计算机 - HPCwire

2024-09-16 10:44:29 英文原文

人工智能正在迅速改变科学计算的格局,使研究人员能够以前所未有的速度和精度解决复杂问题。正如高性能计算加速了模拟功能的科学实验一样,更新的人工智能驱动系统现在也准备进一步突破界限。人工智能可以通过自动化数据分析、优化模拟以及揭示海量数据集中的模式和见解来帮助科学家,从而补充和增强传统 HPC 的强大功能。

Venado 是一个令人印象深刻且独特的新系统,它是一种人工智能最近与 Hewlett Packard Enterprise 和 Nvidia 合作在洛斯阿拉莫斯国家实验室安装并启动了超级计算机。

Venado 是一台百亿亿级 HPE Cray EX 超级计算机,采用液冷方式,配有 2,560 个 NVIDIA GH200 Grace Hopper 超级芯片。这些节能的 GH200 芯片将基于 Arm 的 NVIDIA CPU 与 H100 GPU 结合在一起,与旧的芯片技术相比,每秒可以执行数百万条指令。

Venado 还包含 920 个 NVIDIA Grace CPU 超级芯片,提供了一种架构CPU 的重量比人们想象的要重,在其他以 GPU 为中心的人工智能系统中脱颖而出。Grace CPU 超级芯片将 GPU 替换为第二个 Grace CPU,通过 NVLink-C2C 互连连接总共 144 个 Arm 内核。

这种 Grace-Grace 架构对于不太适合的科学应用程序特别有利用于 GPU 加速器。Venado 旨在解决更大、更复杂的问题,例如多物理场和耦合物理场中的问题,由于所涉及物理场的复杂性而无法完全加速。许多 LANL 应用程序可以运行数百万行代码,从而导致内存挑战,并且由于对内存的访问稀疏或不规则而导致结果变慢。作为内存带宽和性能的大幅提升,Grace CPU 超级芯片配备高达 960GB 的 LPDDR5x 内存,能够提供高达 1TB/秒的带宽。

这样的性能确保 Venado 将加速 LANL 与 AI 的集成材料科学、可再生能源和天体物理学等领域的研究能力。LANL 指出,早期测试已经显示出材料科学原子模拟和高分辨率天体物理模拟的有希望的结果。该系统通过 HPE Slingshot 11 互连进行联网,并配备用于建模和仿真工作负载的 HPE Cray 超级计算软件。

这台快速的新型超级计算机安装在 LANL 的 Nicholas C. Metropolis 建模和仿真中心。Venados 的名字很贴切,因为它是西班牙语中鹿的意思,也是新墨西哥州 Sangre de Cristo 山脉最高峰之一的名字。

LANL 对超级计算并不陌生,并且已经容纳了许多超级计算机。几十年来具有突破性的系统,其中许多专门用于特定任务。Venado 具有独特的多学科潜力,将作为一种机构资源,使研究人员能够通过一系列计算模式自由地探索各个领域的各种问题。

LANL 表示 Venado 是协同设计过程的结果将构成持续合作的基础,重点是开发广泛的计算、内存和软件技术。该实验室表示,这一协同设计过程旨在融合供应商、硬件架构师、系统软件开发人员、领域科学家、计算机科学家和应用数学家的综合知识。这种协作过程使 Venado 能够针对特定、复杂的研究挑战优化其硬件和软件组件,从而打造出高度定制的机器。

Venado 独特的架构、多学科重点和独特的协同设计流程确保了它是致力于解决科学计算新时代的复杂研究挑战。

摘要

人工智能正在迅速改变科学计算的格局,使研究人员能够以前所未有的速度和精度解决复杂的问题。Venado 还包含 920 个 NVIDIA Grace CPU 超级芯片,其 CPU 数量比人们想象的要重,在其他以 GPU 为中心的人工智能系统中脱颖而出。该系统通过 HPE Slingshot 11 互连进行联网,并配备用于建模和模拟工作负载的 HPE Cray 超级计算软件。维纳多斯(Venados)的名字很贴切,因为它是西班牙语中“鹿”的意思,也是新墨西哥州桑格雷德克里斯托山脉最高峰之一的名字。LANL 表示,Venado 是协同设计过程的成果,该过程将构成持续合作的基础,重点是开发广泛的计算、内存和软件技术。