赞助专题 人工智能是一种非常独特的工作负载,它需要拥有自己的专用云。即使在大云中,他们租用的人工智能训练和推理集群实际上也是独立的机器,与他们运行的大量通用服务器具有不同的架构。这意味着专业人工智能云可以在北美和欧洲与 Amazon Web Services、Microsoft Azure 和 Google Cloud 等公司竞争,而且可以很好地竞争;以及亚洲的阿里巴巴、百度和腾讯。
Scaleway 是这些创新的 AI 云提供商之一,在加速计算方面积累了深厚的专业知识,现在可以为希望快速推进其 AI 项目的客户提供帮助。
该公司总部位于法国巴黎,其历史可以追溯到 1999 年互联网泡沫时期,当时其前身 Online SAS 开始销售网络托管和域名注册服务。2006 年,在 Amazon Web Services 推出后,Scaleway 开始租用专用服务器。在六年之内,它就开始销售基于 ARM CPU 的裸机基础设施云服务,这些 CPU 被安装在国产服务器中,并在以巴黎为中心的法兰西大都市区运营着三个数据中心。最近,该公司在荷兰(阿姆斯特丹)和波兰(华沙)开设了数据中心。
如今,Scaleway 是法国电信提供商 iliad 集团的子公司,拥有四个数据中心,目前由 OpCore 运营,OpCore 也是 iliad 集团的一部分。它不仅在快速扩大足迹,而且还在大规模建设人工智能超级计算机。这个想法是让欧洲拥有自己的人工智能基础设施,并允许在欧盟境内开展业务的公司遵守其境内的数据安全和隐私法规。
集群实现最佳性能
Scaleway 的第一台 AI 超级计算机昵称“Nabuchodonosor”,指的是一个 15 升容量的香槟瓶,安装于 2023 年秋季。它基于由 127 个 DGX H100 系统组成的 SuperPOD,总共 1,016 个“Hopper”GPU,与采用无阻塞全胖树配置的 400Gb/秒 Quantum-2 InfiniBand 交换机。
DataDirect Networks 使用数十台服务器创建了容量为 1.8 PB 的 A3I 存储集群;它有自己的 InfiniBand 网络将存储节点连接在一起。该 A3I 存储集群可以在“Nabu”集群中的 127 个 DGX H100 节点上以 2.7 TB/秒的速度读取数据,并以 1.95 TB/秒的速度写入数据。
该存储的速度(集群中每个 DGX 节点的写入保持为 15GB/秒)对于检查点 AI 训练运行非常重要。如果训练期间出现故障(无论是硬件还是软件),如果您无法从检查点恢复,那么您必须从头开始重新运行 AI 训练。在数百到数千台服务器上训练一个相当大的模型可能需要数周到数月的计算时间,而且没有人可以浪费时间或金钱。因此,快速、可扩展且可靠的存储并不是事后才想到的,而是 Nabu 系统和 Scaleway 正在构建的所有附加机器的组成部分。
Nabu 系统在 H100 张量核心上以 FP8 精度具有超过 4 exaflops 的峰值理论性能。重要的是,它是由 Nvidia 自己构建的。
“我们做的第一个集群是通过 Nvidia 实现的完整 DGX,”Scaleway 硬件研发主管 Yann-Guirec Manac 告诉我们下一个平台。– 我们希望尽快启动并运行,而实现这一目标的最佳方法是选择 Nvidia 并部署参考架构。从开始转换到 GPU 集群运行第一次 AI 训练只用了几个月的时间 —非常非常非常非常快到我们这边了。之后,我们又进行了进一步的考察,目前我们正在与 Hewlett Packard Enterprise 一起构建一个集群,下一个使用 InfiniBand 上线的集群来自戴尔。
人工智能硬件和软件的激动人心的时代
如果说 Manacâh 在谈到 Scaleway 目前正在构建的几个大型人工智能集群时传达的一件事,那就是这并不是苦差事。这是令人兴奋的,事实上,构建和安装人工智能超级计算机是目前地球上最令人兴奋的事情之一。人们想知道这些东西是如何工作的,以及需要什么硬件和软件才能使其工作。
– 与每个人讨论机器,了解所有其他系统的所有差异和注意事项,然后按照 Nvidia 的参考架构构建集群,但在边缘稍微编辑设计,这是一个有趣的旅程,——马纳克说。– 我们还在运营方面添加了自己的专业知识,以确保我们能够在互连和跨集群中获得最佳性能,并确保 Scaleway 支持良好。因为当你拥有数千个 GPU 时,就会出现故障,我们需要能够对这些故障做出快速反应,以免妨碍客户正在进行的 AI 训练。”
目前,Scaleway 拥有多台 SuperPOD 级机器,配备 1,016 个 H100 GPU,并在其数据中心使用 InfiniBand 互连;它有一个使用 Spectrum-X 以太网交换和 Nvidia 的 SuperNIC 构建的集群,拥有 1,024 个 GPU。现在正在为未来安装构建的集群将拥有数千个 GPU,并且很可能是 H100 和 H200 GPU 加速器的组合,其中一些使用 GB200 Grace-Hopper 超级芯片作为计算引擎。
最新 Scaleway 集群中使用的 InfiniBand 和 Spectrum-X 网络之间存在一些重要差异,您可以看到为什么人工智能集群对以太网充满热情。InfiniBand 网络使用 64 端口交换机构建,其中 32 个叶交换机(采用 4 x 8 配置)可馈入 16 个主干交换机,从而形成完整的无阻塞胖树网络。正如您所期望的,它们具有 800 Gb/秒的交换机到交换机端口。交换机笼使用 OSFP 外形规格,每个笼支持两个 400 Gb/秒端口。
Spectrum-X 网络也是 Nvidia 云合作伙伴参考架构的一部分:基于 Nvidia HGX H100 的服务器和 Nvidia Spectrum-X 平台参考架构,并且也以 800Gb/秒的速度运行交换机端口。值得注意的是,SN5600 交换机还拥有 64 128 个端口。这意味着您可以将 16 个叶交换机(采用 4 x 4 配置)馈送到 8 个主干交换机中,以将集群中的 GPU 彼此完全连接起来,并且可以拥有多达 1,024 个 GPU,而无需进行带内管理。这些集群具有相同数量的端口来交叉连接 1,024 个 GPU,但交换机数量却只有一半。
更易于使用参考架构
Manacâh 表示,Spectrum-X 以太网互连是 HGX 参考架构的一部分,这是一件大事,他可以选择 Arista Networks、Cisco Systems 或 Juniper Networks 的 AI 调谐交换机来构建基于以太网的集群。
“对我们来说,仅使用参考架构会更容易,”Manac 说。– 我们可以确信一切都经过了端到端测试并且能够正常工作,而且我们无需在此基础上添加我们自己的工程。很多时候,您必须围绕网络设计训练和应用程序代码,并且仅使用 Nvidia 的相同库就意味着一切都可以正常工作。
“我们可以帮助我们的客户(主要是数据科学家)快速行动,而不必关心交换堆栈中的人工智能框架下面发生了什么,”他继续说道。– 如果我有 Nvidia GPU、Marvell 网络接口卡和 Broadcom 交换机 ASIC,并且出现问题,那么指责将是一场噩梦。 –
另一个与众不同之处是它的 Nvidia 安装服务 (NVIS),它使得复杂人工智能系统的安装比 Scaleway 技术人员第一次自己解决所有问题要快得多。系统设计和架构在英伟达航空,一种集群的数字孪生,一切都在第一次就设置正确。作为云提供商,Scaleway 显然知道如何构建大型服务器和存储群来支持 Web 和数据库应用程序。但构建拥有数千或数万个计算引擎的人工智能超级计算机完全是另一回事,这些计算引擎需要在人工智能训练软件看来和运行起来像一台巨型计算机。通过利用 Nvidia 的专业知识,以及现在利用 HPE 和戴尔的专业知识来构建更新、更大的集群,Scaleway 已经成功避免了数月的痛苦。
当您是云提供商时,这意味着这些非常昂贵的系统将更快地获得收益。事实上,这才是重点。
由英伟达赞助。
订阅我们的时事通讯
我们将本周的亮点、分析和故事直接发送到您的收件箱,中间没有任何中间环节。
立即订阅