OCP峰会2024:AI网络硬件的开源未来

2024-10-15 17:06:15 英文原文
  • 在2024年开放计算项目峰会(OCP)上,我们将分享关于我们人工智能训练集群的下一代网络结构的详细信息。
  • 我们扩大了网络硬件产品组合,并向OCP贡献了两种新的解耦网络织构和一种新的网卡。
  • 我们期待与OCP继续合作,开放机架、服务器、存储设备和主板的设计,以惠及行业内各种规模的公司。

在Meta,我们认为开源硬件能够推动创新。在这个越来越多的数据中心基础设施被用于支持新的和新兴的人工智能技术的世界里,开源硬件在协助实现解耦方面扮演着重要角色。通过将传统的数据中心技术分解为核心组件,我们可以构建更加灵活、可扩展且高效的新型系统。

自2011年帮助创立OCP以来,我们分享了我们的数据中心和组件设计,并开源了我们的网络编排软件,在我们自己的数据中心以及整个行业内激发新的想法。这些想法使Meta的数据中心变得更加高效和创新。 世界上最可持续和高效的之一现在,通过OCP,我们将新的开源高级网络技术引入我们的数据中心以及更广泛的行业,以支持先进的AI应用。

我们宣布了数据中心的两个新里程碑:下一代人工智能网络架构,以及与多家供应商紧密合作开发的一系列新的网络硬件产品。

分解式网络织构在可扩展性方面比模块化机架交换机具有显著优势。

DSF:解耦合且开放的计划织构

网络性能和可用性在发挥我们最佳性能方面起着重要作用。 AI训练集群正因为如此,我们一直在推动我们的AI集群后端网络结构的解耦。在过去的一年里,我们为下一代AI集群开发了分解式调度织网(DSF),以帮助我们构建开放、与供应商无关的系统,这些系统可以使用来自整个行业的可互换组件。基于DSF的织网使我们能够构建大型、无阻塞的织网来支持高带宽的AI集群。

DSF将我们的解耦网络系统扩展到了基于VoQ的开关系统,这些系统由开源技术驱动。 OCP-SAI标准和 FBOSSMeta自身的网络操作系统,用于控制网络交换机。基于VoQ的流量调度确保了在网织结构中主动避免拥塞,而不是被动地进行拥塞信号和反应。

DSF织物支持一个开放和标准的基于以太网的RoCE接口,连接多个xPU和NIC上的端点和加速器,包括Meta的MTIA以及来自多家供应商。

下一代AI织物的DSF平台

阿朗7700R4系列

DSF平台,包括Arista 7700R4系列,由专用的叶子节点和脊柱节点系统组成,这些系统结合在一起创建一个大型分布式交换机。作为分布式系统,DSF设计用于支持大规模的人工智能集群。

7700R4C-38PE: DSF 叶节点交换机

  • 分布式叶子交换机(基于博通Jericho3-AI)
  • 18个800GE(36个400GE)OSFP800主机端口
  • 20个800Gbps(40个400Gbps)织构端口
  • 14.4Tbps线速性能,配备16GB缓存

7720R4-128PE:DSF 脊柱交换机

  • 分布式脊柱交换机(基于 Broadcom Ramon3)
  • 加速计算优化管道
  • 128个800Gbps(256个400Gbps)织构端口
  • 102.4Tbps的线速性能

下一代400G/800G织布开关51T

Minipack3(基于博通Tomahawk5,由Meta设计,Celestica制造)51.2T交换机。

Meta将部署两款下一代400G织网交换机,即Minipack3(最新版本的)MinipackMeta自身的织物网络交换机和Cisco 8501,这两款交换机也都与之前的200G和400G交换机兼容,并将支持升级到400G和800G。

Minipack3 使用 Broadcom 最新的 Tomahawk5 ASIC,而 Cisco 8501 基于 Cisco 的 Silicon One G200 ASIC。这些高性能交换机可传输高达 51.2 Tbps 的数据,并配备了 64x OSFP 端口,设计上优化了无需重定时器即可实现最大能效。与前代型号相比,它们的每比特功耗也显著降低。

Meta将在FBOSS上运行 both Minipack3 和 Cisco 8501。

思科8501(基于思科硅际一代G200芯片组,由思科设计和制造)51.2T交换机。

光学:2个400G FR4光模块用于400G/800G光学互连

Meta的数据中心交换网络从200 Gbps/400 Gbps演进到了400 Gbps/800 Gbps,我们已经在数据中心部署了2x400G光模块.

演化 FBOSS 和 SAI 以支持 DSF

我们继续采用OCP-SAI来引入新的网络布线、交换机硬件平台和光收发器到FBOSS。我们与供应商及OCP社区合作,推动SAI的发展。它现在支持诸如DSF和其他增强路由方案等新特性和概念。

来自世界各地的开发人员和工程师可以使用这一开源硬件并贡献他们自己的软件,这些软件他们自己也可以使用,并与整个行业分享。

FBNIC:Meta设计的多主机基础网卡

我们正在继续设计更多的ASIC芯片,包括用于FBNIC的ASIC芯片。FBNIC是一个真正的多主机基础网卡,并且包含了我们为服务器舰队设计的第一款Meta网络ASIC芯片。原文无法翻译,因为"MTIA"不是一个可以翻译的句子或短语。请提供完整的信息以便进行准确翻译。如果有特定含义或上下文,请一并告知。但根据要求只输出翻译结果或者原文的话,则为: MTIA解决方案。它可以支持多达四个主机,并为每个主机提供完全的数据路径隔离。FBNIC驱动程序已上游合并(从v6.11内核开始可用)。该网卡模块由Marvell设计并贡献给了OCP。

FBNIC的主要特点包括:

  • 支持多达4×100/4×50/4×25 GE的网络接口,每个通道支持高达56G PAM4的SerDes。
  • 最多4个独立的PCIe Gen5切片
  • 硬件卸载包括LSO、校验和计算
  • PTP物理层速率时间戳(每台主机从PHY开始)
  • 头部数据分离以辅助零拷贝
  • 符合OCP NIC 3.0版本1.2.0设计规范

未来是开放的

推进人工智能意味着构建超越规模的数据中心基础设施。它还必须允许灵活性并高效且可持续地运行。在Meta,我们设想一个未来的AI硬件系统不仅可扩展,而且开放和协作。

我们鼓励任何希望为AI网络硬件的未来贡献力量的人与OCP和Meta合作,共同分享AI基础设施的未来。

关于《OCP峰会2024:AI网络硬件的开源未来》
暂无评论

摘要

在2024年开放计算项目峰会(OCP)上,我们将分享关于我们人工智能训练集群下一代网络结构的详细信息。自2011年帮助创立OCP以来,我们一直在分享我们的数据中心和组件设计,并开源了我们的网络编排软件,以激发我们在自己的数据中心以及整个行业中的新想法。DSF结构支持开放且基于标准的以太网RoCE接口,适用于多个xPU和NIC(包括Meta的MTIA以及其他供应商的产品)上的端点和加速器。 Meta将部署两款下一代400G网络交换机:Minipack3(Meta自家的最新版本的布线网络交换机)以及Cisco 8501。这两款交换机均与之前的200G和400G交换机向后兼容,并支持升级至400G和800G。 Minipack3使用Broadcom最新的Tomahawk5 ASIC,而Cisco 8501则基于Cisco的Silicon One G200 ASIC。相比前一代产品,它们每比特耗电量大幅降低。