后端AI网络给前端带来压力

2024-11-08 20:17:57 英文原文

作者:Timothy Prickett Morgan

在高性能计算历史的大部分时间里,超级计算机是一台独立的、孤立的机器,被设计用来运行一些模拟或模型,它与外界唯一需要的链接是一个相对较小的链接来显示一些可视化。

GenAI 版本的人工智能的重点是不断从外部世界获取数据,并不断向外部世界输出建议或行动作为响应。这意味着,正如人工智能集群需要肥硕、快速和无损的网络,以免在那些挤满 GPU 和其他类型的人工智能加速器的非常昂贵的人工智能服务器上浪费时间和金钱,前端将 AI 系统连接到外部世界的网络可能需要从企业中仍然常见的典型 10 Gb/秒速度进行升级。

这就是 Arista Networks 等公司对 GenAI 倍感兴奋的原因。字面上地。

在审议 2024 年第三季度财务业绩的电话会议中,Arista 的高层表示,他们已经在四家之前正在试用或试点其服务的超大规模和云构建商客户名单中添加了另一个“云巨头”。下一代 AI 集群以 AI 为中心的切换,目前单个集群中将包含 50,000 到 100,000 个 GPU,并且在不久的将来会包含更多 GPU。Arista 进一步表示,另外 15 家企业客户正在使用更少数量的 GPU 构建 AI 集群,并在试点和生产系统的进展过程中测试其产品。(我们的猜测是,如果企业能够从 Nvidia 或 AMD 获得 GPU 分配以及从首席财务官那里获得预算,那么企业将部署数千个 GPU,最多可能达到 10,000 个。)

因此,看起来 AI 网络管道正在构建,而 Nvidia 的 InfiniBand 迄今为止一直在 AI 集群中占据主导地位,并且正在面临来自 Arista 及其自己的 Spectrum-X 系列的真正竞争。这花费了很长时间,特别是以 IT 年来衡量。但坦率地说,以太网还不足以提高这些 GPU 的利用率,它必须在 RDMA 和拥塞控制方面进行改进,才能在 InfiniBand 的强大之处上与 InfiniBand 抗衡,然后利用以太网比 InfiniBand 提供的更高的规模来满足任何需要。后端网络中给定的层数。

AI前端升级与AI后端(Arista首席执行官Jayshree Ullal称之为“AI中心”)的比例尚不清楚,因为这是一个新现象。随着时间的推移,弄清楚这一点也会变得更加困难。(就像现在很难说什么是“云”、什么不是。)2025 年预测的比率是,2025 年 AI 后端网络为 7.5 亿美元,前端 AI 相关网络为 7.5 亿美元,额外且不相关的 7.5 亿美元用于校园网络建设。

“我们开始越来越多地看到,在后端每花一美元,您可能会多花 30%、100%,我们甚至看到了多花 200% 的情况,”Ullal在电话中解释。– 这就是为什么我们相信明年 7.5 亿美元将转入另外 7.5 亿美元的前端流量,其中包括人工智能,但它也将包括其他内容,它不会是人工智能所独有的。因此,如果该数字介于 30% 到 200% 之间,我不会感到惊讶,因此平均值约为 100%,即后端是前端的 2 倍。所以我们对此感觉很好。我们不知道如何准确地将其算作纯人工智能,这就是为什么我越来越多地说,如果你开始将推理、训练、前端存储、广域网、经典云全部结合在一起,那么纯人工智能的数量变得难以追踪。 –

但那是明年的事了。在九月季度,Arista 仍在努力获取一些人工智能资金。目前,该公司正在与其一直追逐的五个大型人工智能客户中​​的五个进行交易——上季度是五分之四。我们不太了解这些客户在做什么。我们确实知道其中之一是 Meta Platforms,它正在构建两个集群,一个与 Nvidia InfiniBand 互连,另一个与 Arista 以太网互连。乌拉尔表示,其中三个客户“进展顺利”。一个刚刚开始,新的第五个客户“进展速度比我们预期的要慢”,并且“正在等待新的 GPU,他们在电源、冷却等方面遇到了一些挑战”,正如她所说。

本季度,Arista 的产品收入增长 18.5%,达到 15.3 亿美元,服务收入增长 28.2%,达到 2.871 亿美元。

产品内的软件订阅导致销售额 2,070 万美元,同比下降 30.2%,这使得软件和服务的总增长下降至 3.079 亿美元,仅增长 21.4%。我们不确定这里是什么。

加起来,本季度总收入增长 20%,达到 18.1 亿美元,环比增长 7.1%。(本季度的指导目标是收入在 17.2 亿美元至 17.5 亿美元范围内。)营业收入为 7.85 亿美元,增长 30.2%,这表明审慎的成本控制以及更好的利润率以及销售高端产品,净利润增长更快,达到 7.48 亿美元,增长 37.2%。净利润占收入的 41.3%,非常健康。如果不计算一些税收优惠,Arista 在 2019 年第四季度达到 47.2% 的水平,那么这是迄今为止的历史新高。这不是会计利润,而是实际利润。事实上,一些专门用于第三季度的研发成本已被推迟到第四季度,这起到了一定的作用。

Arista 截至第三季度末的现金及等价物为 74.3 亿美元,增长 66.7%。客户采购承诺增长 15%,达到 23 亿美元,递延收入为 25.7 亿美元。

展望未来,Arista 表示第四季度收入应在 18.5 亿美元至 19 亿美元之间。与当年预计增长 10% 至 12% 相比,这一数字增长了 18%。

到 2025 年,随着网络组合转向云和人工智能客户,收入预计将增长 15% 至 17%,但随着年收入超过 80 亿美元,毛利率可能会下降 3 到 5 个百分点。

至于向 400 Gb/秒和 800 Gb/秒互连的过渡,Ullal 表示,大多数人工智能试验都是针对 400 Gb/秒产品,因为客户正在等待网络接口卡和超以太网功能(例如数据包喷射),以实现向 400 Gb/秒和 800 Gb/秒互连的过渡。800 Gb/秒网络。

“虽然我们正在进行一些 800 Gb/秒的早期试验,但其中大多数是 400 Gb/秒,并且 2024 年的大部分是 400 Gb/秒,”Ullal 说。“我预计,进入 2025 年,我们将看到 400 Gb/秒和 800 Gb/秒之间的更好分配。”

订阅我们的时事通讯

我们将本周的亮点、分析和故事直接发送到您的收件箱,中间没有任何中间环节。
立即订阅

关于《后端AI网络给前端带来压力》的评论


暂无评论

发表评论

摘要

随着公司转向更大规模的 AI 部署,Arista Networks 发现对其以 AI 为中心的交换解决方案的需求不断增加。该公司增加了一个新的“云巨头”客户,还有 15 个企业客户正在试用其产品,旨在将网络速度提高到超过典型的 10 Gb/秒。Arista 预计 2025 年人工智能前端网络相对于后端支出将显着增长,可能使当前投资水平翻一番甚至四倍。随着 GenAI 的兴起,传统的超级计算架构正在变得过时,因为新系统需要高速、无损的网络来持续数据输入和输出。Arista 的以太网解决方案正在与 Nvidia 的 InfiniBand 竞争以满足这些需求,尽管由于客户等待支持更高速度的网络接口卡的时间较长,目前大多数 AI 试验都集中在 400 Gb/秒的产品上。