SiFive 从 AI 芯片的 RISC-V 内核转向设计自己的全脂加速器

2024-09-19 08:25:00 英文原文

SiFive 从用于 AI 芯片的 RISC-V 内核转向设计自己的全脂加速器

似乎有人在寻找扳手腕

SiFive，设计了 RISC-V CPU 核心用于各种人工智能芯片，现在正在为其自己的本土成熟机器学习加速器提供蓝图许可。

SiFive 的 Intelligence XM 系列集群于本周宣布，承诺为以下领域提供可扩展的构建块：开发大大小小的人工智能芯片。这个想法是，其他人可以授权基于 RISC-V 的设计集成到处理器和片上系统中，然后放置在从边缘和物联网设备到数据中心服务器的产品中，并有望促进架构之间的更多竞争。

<无晶圆厂 SiFive 对人工智能领域并不陌生。正如我们之前报道的那样，至少部分 Google 张量处理单元已经在使用 SiFive 的 X280 RISC-V CPU 内核来管理机器学习加速器，并为其矩阵乘法单元 (MXU) 提供工作和数据。

SiFive 首席执行官帕特里克·利特尔 (Patrick Little) 在一份预先声明中声称，这家美国公司目前正在向“Magnificent 7”公司中的五家公司提供基于 RISC-V 的芯片设计：微软、苹果、Nvidia、Alphabet、亚马逊、Meta 和特斯拉，但我们怀疑并非所有芯片都必然涉及人工智能。

SiFive 的 Intelligence XM 系列与之前与 Google 或 Tenstorrent 等公司的合作的不同之处在于，它不是附加 CPU 核心对于第三方矩阵数学引擎（全部封装在同一芯片中），SiFive 正在推出自己的完整 AI 加速器设计，供客户许可并投入芯片中。这并不是针对能够打造自己的加速器的半导体厂商，例如 Google 和 Tenstorrent，而是针对那些想要采用现成设计、进行定制并将其发送到晶圆厂的组织。

“对于某些客户来说，他们自己开发硬件仍然是正确的，”Ronco 说。“但是，对于一些客户来说，他们希望 SiFive 提供更多一站式服务。”

从这个意义上说，这些 XM 集群有点像 Arm 的计算子系统 (CSS) 设计，因为它们为客户提供了服务用于设计定制芯片的更全面的构建块。但 SiFive 的目标并不是通用应用处理器，而是那些想要制作自己的 AI 加速器的人。

仔细观察 XM 集群

SiFive 的基础 XM 集群是围绕四个SiFive 的 Intelligence X RISC-V CPU 内核连接到内部矩阵数学引擎，专门用于通过硬件中的神经网络计算提供动力。如果您不熟悉，我们之前已经探讨过 SiFive 的 X280 和更新的 X390 X 系列核心设计，后者可以配置一对 1,024 个向量算术逻辑单元。

基础 XM集群由四个与矩阵引擎相连的 Intelligence X RISC-V CPU 核心组成。点击可放大。来源：SiFive

每个集群都通过一致集线器接口支持高达 1TB/秒的内存带宽，预计可提供高达 16 TOPS（每秒万亿次操作）的 INT8 或每千兆赫的 BF16 性能为 8 teraFLOPS。

每千兆赫的 TeraFLOPS 似乎是一个奇怪的指标，但重要的是要记住这不是一个完整的芯片，性能在很大程度上取决于有多少客户在其组件中放置的集群、内部连接方式、芯片上还有什么、电源和冷却情况如何以及最终的时钟速度如何。

从表面上看，这些XM 集群听起来可能没有那么强大，尤其是当您考虑到 SiFive 预计大多数基于该设计的芯片都在 1GHz 左右运行时。然而，将一些组合在一起，其性能潜力会迅速增加。

Ronco 预计大多数基于该设计的芯片将利用 4 到 8 个 XM 集群，理论上可以实现 48TB/秒的传输速度。峰值内存带宽和高达 3264 teraFLOPS 的 BF16 性能，假设运行时钟为 1GHz。

这仍然比 Nvidia H100 等产品慢得多，后者可以产生近 petaFLOPS 的密集 BF16 性能。但正如我们之前提到的，FLOPS 并不是一切，尤其是在涉及人工智能推理等带宽受限的工作负载时。有价格、功耗、工艺节点和其他因素等考虑因素。

SiFive 为数据中心提供了潜在的 Neoverse N2 竞争对手 P870-D RISC-V 内核
RISC-我们其他人的 V PCIe 5 SSD 控制器达到 14GB/s
阿里巴巴的研究部门承诺今年推出服务器级 RISC-V 处理器
Tenstorrent 的 Blackhole 芯片拥有 768 个 RISC-V核心和几乎同样多的 FLOPS

因此，Ronco 预计 SiFive 的 XM 集群可能不会广泛用于 AI 训练。也就是说，该设计并不限于八个集群。

Ronco 犹豫是否说该设计可以扩展到多大程度，其中一些可能取决于工艺技术和芯片面积。然而，该公司的产品幻灯片表明 512 个 XM 集群是可能的。同样，这将由客户决定什么适合他们的特定应用。

SiFive 建议将多达 512 个 XM 集群打包在一起，以实现 4 petaFLOPS 的 AI 性能点击放大

除了新的 XM 集群外，SiFive 表示还将提供其 SiFive 内核库的开源参考实现，以减少使用的障碍RISC-V 架构的采用。

PS：Arm 本周宣布将其 Kleidi 库添加到 PyTorch 和 ExecuTorch，允许使用这些框架的应用程序使用设备的主机 Arm 内核来加速 AI 工作。这是使用 CPU 中的专门指令进行加速，而不是使用专用加速器。

关于《SiFive 从 AI 芯片的 RISC-V 内核转向设计自己的全脂加速器》的评论

暂无评论

发表评论

摘要

SiFive 从用于 AI 芯片的 RISC-V 内核转向设计自己的全脂加速器失败的机器学习加速器。但是，对于一些客户来说，他们想要更多 SiFive 的一站式服务。每千兆赫的 TeraFLOPS 似乎是一个奇怪的指标，但重要的是要记住这不是一个完整的芯片，性能在很大程度上取决于客户在其组件中放置了多少个集群，以及内部的连接方式，芯片上还有什么，电源和冷却情况如何，以及它最终的时钟速度有多快。SiFive 表示，可以将多达 512 个 XM 集群打包在一起，以实现 4 petaFLOPS 的 AI 性能点击放大假设最终客户实际上可以保持 1GHz 时钟速度而不会遇到热量或功率限制，512 个 XM 集群将与 Nvidia 即将推出的 Blackwell 加速器相媲美，拥有大约 4 petaFLOPS 的 BF16 矩阵计算。SiFive 表示，除了新的 XM 集群外，它还将提供 SiFive 内核库的开源参考实现，以减少采用 RISC-V 架构的障碍。