定制 Arm CPU 在数据中心驱动多种不同的 AI 方法

2024-11-11 14:51:16 英文原文

作者:Timothy Prickett Morgan

赞助专题Arm 正在开始履行其改变数据中心计算性质的承诺,它得到了传统芯片制造商以及具有大量计算需求且还需要提高效率的超大规模厂商和云构建商的大力帮助并且成本逐年下降。

为此,几乎所有超大规模企业和云构建商都转向了 Arm。在很多情况下,他们创建了自己的基于标准化 Arm ISA 的定制 CPU,同时他们也在设计充满矢量和张量核心的专用加速器,以提高现代 AI 模型核心的矩阵数学的性能。值得庆幸的是,这些 CPU 和 XPU 对于进行 HPC 模拟的计算也很有用。

这是寒武纪计算进化爆炸的精彩部分。即使半导体制造工艺随着尺寸的缩小而变得更加复杂和昂贵,即使对 CPU 和 XPU 的需求变得越来越重,Arm 仍使创建定制芯片变得更容易、更快、更便宜,从而为计算创建了良性反馈循环所有 IT 商店都可以以不同的方式从中受益。

“从我们看待人工智能的角度来看,我们有一个很好的机会来支持那些正在构建自己的加速器的公司,”Arm 产品解决方案副总裁 Dermot O-Driscoll 说道。下一个平台。– 但首先也会有很多 CPU 上的机器学习。CPU 上已经进行了大量的机器学习推理,我们正在对整个堆栈进行大量投资,以确保 CPU 上的推理在 Arm 平台上运行得超级完美且无摩擦。这对端点和客户端有很大的吸引力。作为 Kleidi 计划的一个组成部分,我们将把这项工作扩展到基础设施领域。我们希望确保人们了解机器学习不仅仅是 GPU 问题。”

在 CPU 上运行大量推理,特别是为了降低延迟并简化 AI 模型的安全性,对于企业中的许多现有工作负载来说是有意义的,这些工作负载将在需要时添加 AI 特性和功能。是。事实上,人工智能只是另一套算法,与体现公司活动和交易的现有算法并存。这就是为什么 CPU 需要越来越多的矢量和张量数学功能。

OâDriscoll 估计,当今世界上有 50 到 80 个组织正在设计自己的离散 AI 加速器,为这些组织提供服务是 Arm AI 战略的第二个支柱。正如我们上面提到的,几乎所有的超大规模提供商和云构建商都设计了自己的 Arm 服务器 CPU 处理器,并从 Ampere 计算公司购买了这些处理器,他们这样做是为了更好地控制 CPU 的功能和时序他们增加了服务器群并降低了这些服务器群的成本。在一定规模上,消除英特尔、AMD 和其他中间商是有意义的;为什么要为他们的利润买单?为什么要放弃控制权?目前,Arm ISA 与 X86 ISA 一样受欢迎,软件在两者上的运行效果也同样好。

然而,CPU 并不是具有大量高带宽内存来平衡计算并使其有用的大规模并行计算引擎。十多年来,GPU 集群在 HPC 和 AI 工作负载上的性能至少是 CPU 集群的 10 倍,而成本却是 CPU 集群的 3 倍,这就是为什么 GPU 加速在 2000 年代末开始在 HPC 模拟领域蓬勃发展以及原因GPU 加速集群采用了这种新型 HPC 架构作为其初始平台。HPC 无法再以经济实惠的方式在全 CPU 系统上完成,而且我们认为,如果没有 GPU 加速系统,无论从技术上还是经济上来说,我们今天所知道的人工智能都是不可能实现的。

这就是为什么 AI 由 Nvidia 或 AMD GPU 或其类似物驱动 - 来自 Google 的 TPU、来自 Amazon 的 Trainium、来自 SambaNova Systems 的 RDU、来自 Groq 的 LPU、来自 Cerebras Systems 的晶圆级 CS-2 等等。这些经济和技术现实,以及 Nvidia 能够从其 GPU 和互连中获取的巨额利润,就是这 50 到 80 个组织正在构建自己的 AI 加速器的原因。尽管 Arm 没有构建大型独立 GPU 或 XPU 计算引擎,但它确实可以发挥作用。

“现在,我们有很多公司(尤其是超大规模企业)正在构建自己的加速器并构建自己的 CPU,关键方面之一是它们之间的通信速度和效果如何,”奥德里斯科尔说。——那么这两者之间是什么关系呢?因此,他们能否为自己的 CPU 构建定制芯片,使他们能够更好地与加速器(无论是 PCI-Express 还是其他加速器)进行交互。”

O’Driscoll 解释说,CPU 和 GPU 之间需要高带宽和控制平面路径,Arm 正在继续发展其在总线领域的工作,以在构建基于 Arm 技术的 CPU 时帮助实现这一目标。Nvidia 已经通过其 NVLink 高带宽端口和内存一致性协议指明了方向,现在业界需要一个任何 CPU 和任何加速器都可以采用的标准。

这就引出了 Arm 战略的第三个支柱,即小芯片及其互连、小芯片系统架构 (CSA)、计算子系统 (CSS) 知识产权包,以及拥有 EDA 工具的公司的 Arm Total Design 集体、设计专业知识、代工支持以及基于设计的固件和更高级别的软件。通过这种方法,那些想要拥有自己的定制 CPU 和 XPU 的人可以做到这一点,而无需尝试自己完成所有事情,并从组件和小芯片的混合开始,这些组件和小芯片可以组装成针对特定类别的 HPC 和 AI 工作的独特组合。

但这只是如何将 CPU 与加速器紧密结合的第一个好例子。

“所有这些正在构建加速器的公司迟早都会发现他们需要与该加速器紧密耦合的计算,”O-Driscoll 解释道。– 这是 Grace /Hopper 模型。肯定有玩家想要 CPU 上的 HBM,但这些市场并不广阔,而且往往适用于经典 HPC。如今,人们不想通过 CPU 网格到 GPU 来运行 HBM。他们希望 GPU 和 HBM 彼此非常非常紧密地堆叠在一起。他们在 HBM 上花费了大量资金,因此他们希望这些能够紧密耦合。然而,他们知道 XPU 上的 HBM 容量有限,这就是为什么他们正在研究 Nvidia 构建的模型,该模型在 CPU 上拥有更大的 DRAM 存储,与GPU,而使用 HBM 纯粹是为了短期延迟、短期带宽。每个人都需要使用他们的加速器进行计算 - 今天是通过 PCI-Express,明天可能会通过封装内的 AMBA-CHI 进行计算。当他们达到这一点时,创建这个计算复合体的最简单方法是采用我们提供的 CSS,因为没有另一个生态系统提供计算小芯片。当我们建立 Arm Total Design 合作伙伴关系时,这意味着实际上有一些公司已经准备好这些小芯片。因此,我们使用 CSS 使 Arm Total Design 合作伙伴能够启用小芯片,然后这些小芯片可以与最终客户选择的加速器共同封装。

这里有各种各样的可能性。Arm 核心位于加速器插槽上,使其能够自托管。具有多个插槽的各种国产超级芯片。具有集成矢量和张量加速器的 Arm CPU。这些可能性正是重点。您可以共同设计数据中心硬件和软件,从而提高效率并降低成本。

此内容由 Arm 赞助。

订阅我们的时事通讯

我们将本周的亮点、分析和故事直接发送到您的收件箱,中间没有任何中间环节。
立即订阅

关于《定制 Arm CPU 在数据中心驱动多种不同的 AI 方法》的评论


暂无评论

发表评论

摘要

由于 Arm 有望改变计算效率和成本效益,因此在数据中心得到了广泛采用。超大规模企业和云构建商越来越多地转向 Arm 进行定制 CPU 设计和专用加速器,从而促进计算硬件的快速发展。Arm 的战略包括支持公司开发自己的 AI 加速器、增强 CPU 上的机器学习性能,以及通过 Chiplet 系统架构 (CSA) 和计算子系统 (CSS) 等举措培育 Chiplet 设计和互连生态系统。这种方法旨在促进定制芯片的创建以及与加速器的集成,从而为数据中心硬件设计提供灵活性和效率。