SiFive 从 AI 芯片的 RISC-V 内核转向设计自己的全脂加速器

2024-09-19 08:25:00 英文原文

SiFive 从用于 AI 芯片的 RISC-V 内核转向设计自己的全脂加速器

似乎有人在寻找扳手腕

SiFive,设计了 RISC-V CPU 核心用于各种人工智能芯片,现在正在为其自己的本土成熟机器学习加速器提供蓝图许可。

SiFive 的 Intelligence XM 系列集群于本周宣布,承诺为以下领域提供可扩展的构建块:开发大大小小的人工智能芯片。这个想法是,其他人可以授权基于 RISC-V 的设计集成到处理器和片上系统中,然后放置在从边缘和物联网设备到数据中心服务器的产品中,并有望促进架构之间的更多竞争。

<无晶圆厂 SiFive 对人工智能领域并不陌生。正如我们之前报道的那样,至少部分 Google 张量处理单元已经在使用 SiFive 的 X280 RISC-V CPU 内核来管理机器学习加速器,并为其矩阵乘法单元 (MXU) 提供工作和数据。

SiFive 首席执行官帕特里克·利特尔 (Patrick Little) 在一份预先声明中声称,这家美国公司目前正在向“Magnificent 7”公司中的五家公司提供基于 RISC-V 的芯片设计:微软、苹果、Nvidia、Alphabet、亚马逊、Meta 和特斯拉,但我们怀疑并非所有芯片都必然涉及人工智能。

SiFive 的 Intelligence XM 系列与之前与 Google 或 Tenstorrent 等公司的合作的不同之处在于,它不是附加 CPU 核心对于第三方矩阵数学引擎(全部封装在同一芯片中),SiFive 正在推出自己的完整 AI 加速器设计,供客户许可并投入芯片中。这并不是针对能够打造自己的加速器的半导体厂商,例如 Google 和 Tenstorrent,而是针对那些想要采用现成设计、进行定制并将其发送到晶圆厂的组织。

“对于某些客户来说,他们自己开发硬件仍然是正确的,”Ronco 说。“但是,对于一些客户来说,他们希望 SiFive 提供更多一站式服务。”

从这个意义上说,这些 XM 集群有点像 Arm 的计算子系统 (CSS) 设计,因为它们为客户提供了服务用于设计定制芯片的更全面的构建块。但 SiFive 的目标并不是通用应用处理器,而是那些想要制作自己的 AI 加速器的人。

仔细观察 XM 集群

SiFive 的基础 XM 集群是围绕四个SiFive 的 Intelligence X RISC-V CPU 内核连接到内部矩阵数学引擎,专门用于通过硬件中的神经网络计算提供动力。如果您不熟悉,我们之前已经探讨过 SiFive 的 X280 和更新的 X390 X 系列核心设计,后者可以配置一对 1,024 个向量算术逻辑单元。

基础 XM集群由四个与矩阵引擎相连的 Intelligence X RISC-V CPU 核心组成。点击可放大。来源:SiFive

每个集群都通过一致集线器接口支持高达 1TB/秒的内存带宽,预计可提供高达 16 TOPS(每秒万亿次操作)的 INT8 或每千兆赫的 BF16 性能为 8 teraFLOPS。

每千兆赫的 TeraFLOPS 似乎是一个奇怪的指标,但重要的是要记住这不是一个完整的芯片,性能在很大程度上取决于有多少客户在其组件中放置的集群、内部连接方式、芯片上还有什么、电源和冷却情况如何以及最终的时钟速度如何。

从表面上看,这些XM 集群听起来可能没有那么强大,尤其是当您考虑到 SiFive 预计大多数基于该设计的芯片都在 1GHz 左右运行时。然而,将一些组合在一起,其性能潜力会迅速增加。

Ronco 预计大多数基于该设计的芯片将利用 4 到 8 个 XM 集群,理论上可以实现 48TB/秒的传输速度。峰值内存带宽和高达 3264 teraFLOPS 的 BF16 性能,假设运行时钟为 1GHz。

这仍然比 Nvidia H100 等产品慢得多,后者可以产生近 petaFLOPS 的密集 BF16 性能。但正如我们之前提到的,FLOPS 并不是一切,尤其是在涉及人工智能推理等带宽受限的工作负载时。有价格、功耗、工艺节点和其他因素等考虑因素。

  • SiFive 为数据中心提供了潜在的 Neoverse N2 竞争对手 P870-D RISC-V 内核
  • RISC-我们其他人的 V PCIe 5 SSD 控制器达到 14GB/s
  • 阿里巴巴的研究部门承诺今年推出服务器级 RISC-V 处理器
  • Tenstorrent 的 Blackhole 芯片拥有 768 个 RISC-V核心和几乎同样多的 FLOPS

因此,Ronco 预计 SiFive 的 XM 集群可能不会广泛用于 AI 训练。也就是说,该设计并不限于八个集群。

Ronco 犹豫是否说该设计可以扩展到多大程度,其中一些可能取决于工艺技术和芯片面积。然而,该公司的产品幻灯片表明 512 个 XM 集群是可能的。同样,这将由客户决定什么适合他们的特定应用。

SiFive 建议将多达 512 个 XM 集群打包在一起,以实现 4 petaFLOPS 的 AI 性能点击放大

除了新的 XM 集群外,SiFive 表示还将提供其 SiFive 内核库的开源参考实现,以减少使用的障碍RISC-V 架构的采用。

PS:Arm 本周宣布将其 Kleidi 库添加到 PyTorch 和 ExecuTorch,允许使用这些框架的应用程序使用设备的主机 Arm 内核来加速 AI 工作。这是使用 CPU 中的专门指令进行加速,而不是使用专用加速器。

摘要

SiFive 从用于 AI 芯片的 RISC-V 内核转向设计自己的全脂加速器失败的机器学习加速器。但是,对于一些客户来说,他们想要更多 SiFive 的一站式服务。每千兆赫的 TeraFLOPS 似乎是一个奇怪的指标,但重要的是要记住这不是一个完整的芯片,性能在很大程度上取决于客户在其组件中放置了多少个集群,以及内部的连接方式,芯片上还有什么,电源和冷却情况如何,以及它最终的时钟速度有多快。SiFive 表示,可以将多达 512 个 XM 集群打包在一起,以实现 4 petaFLOPS 的 AI 性能 点击放大假设最终客户实际上可以保持 1GHz 时钟速度而不会遇到热量或功率限制,512 个 XM 集群将与 Nvidia 即将推出的 Blackwell 加速器相媲美,拥有大约 4 petaFLOPS 的 BF16 矩阵计算。SiFive 表示,除了新的 XM 集群外,它还将提供 SiFive 内核库的开源参考实现,以减少采用 RISC-V 架构的障碍。