在Meta,我们认为开源硬件能够推动创新。在这个越来越多的数据中心基础设施被用于支持新的和新兴的人工智能技术的世界里,开源硬件在协助实现解耦方面扮演着重要角色。通过将传统的数据中心技术分解为核心组件,我们可以构建更加灵活、可扩展且高效的新型系统。
自2011年帮助创立OCP以来,我们分享了我们的数据中心和组件设计,并开源了我们的网络编排软件,在我们自己的数据中心以及整个行业内激发新的想法。这些想法使Meta的数据中心变得更加高效和创新。 世界上最可持续和高效的之一现在,通过OCP,我们将新的开源高级网络技术引入我们的数据中心以及更广泛的行业,以支持先进的AI应用。
我们宣布了数据中心的两个新里程碑:下一代人工智能网络架构,以及与多家供应商紧密合作开发的一系列新的网络硬件产品。
网络性能和可用性在发挥我们最佳性能方面起着重要作用。 AI训练集群正因为如此,我们一直在推动我们的AI集群后端网络结构的解耦。在过去的一年里,我们为下一代AI集群开发了分解式调度织网(DSF),以帮助我们构建开放、与供应商无关的系统,这些系统可以使用来自整个行业的可互换组件。基于DSF的织网使我们能够构建大型、无阻塞的织网来支持高带宽的AI集群。
DSF将我们的解耦网络系统扩展到了基于VoQ的开关系统,这些系统由开源技术驱动。 OCP-SAI标准和 FBOSSMeta自身的网络操作系统,用于控制网络交换机。基于VoQ的流量调度确保了在网织结构中主动避免拥塞,而不是被动地进行拥塞信号和反应。
DSF织物支持一个开放和标准的基于以太网的RoCE接口,连接多个xPU和NIC上的端点和加速器,包括Meta的MTIA以及来自多家供应商。
DSF平台,包括Arista 7700R4系列,由专用的叶子节点和脊柱节点系统组成,这些系统结合在一起创建一个大型分布式交换机。作为分布式系统,DSF设计用于支持大规模的人工智能集群。
7700R4C-38PE: DSF 叶节点交换机
7720R4-128PE:DSF 脊柱交换机
Meta将部署两款下一代400G织网交换机,即Minipack3(最新版本的)MinipackMeta自身的织物网络交换机和Cisco 8501,这两款交换机也都与之前的200G和400G交换机兼容,并将支持升级到400G和800G。
Minipack3 使用 Broadcom 最新的 Tomahawk5 ASIC,而 Cisco 8501 基于 Cisco 的 Silicon One G200 ASIC。这些高性能交换机可传输高达 51.2 Tbps 的数据,并配备了 64x OSFP 端口,设计上优化了无需重定时器即可实现最大能效。与前代型号相比,它们的每比特功耗也显著降低。
Meta将在FBOSS上运行 both Minipack3 和 Cisco 8501。
Meta的数据中心交换网络从200 Gbps/400 Gbps演进到了400 Gbps/800 Gbps,我们已经在数据中心部署了2x400G光模块.
我们继续采用OCP-SAI来引入新的网络布线、交换机硬件平台和光收发器到FBOSS。我们与供应商及OCP社区合作,推动SAI的发展。它现在支持诸如DSF和其他增强路由方案等新特性和概念。
来自世界各地的开发人员和工程师可以使用这一开源硬件并贡献他们自己的软件,这些软件他们自己也可以使用,并与整个行业分享。
我们正在继续设计更多的ASIC芯片,包括用于FBNIC的ASIC芯片。FBNIC是一个真正的多主机基础网卡,并且包含了我们为服务器舰队设计的第一款Meta网络ASIC芯片。原文无法翻译,因为"MTIA"不是一个可以翻译的句子或短语。请提供完整的信息以便进行准确翻译。如果有特定含义或上下文,请一并告知。但根据要求只输出翻译结果或者原文的话,则为: MTIA解决方案。它可以支持多达四个主机,并为每个主机提供完全的数据路径隔离。FBNIC驱动程序已上游合并(从v6.11内核开始可用)。该网卡模块由Marvell设计并贡献给了OCP。
FBNIC的主要特点包括:
推进人工智能意味着构建超越规模的数据中心基础设施。它还必须允许灵活性并高效且可持续地运行。在Meta,我们设想一个未来的AI硬件系统不仅可扩展,而且开放和协作。
我们鼓励任何希望为AI网络硬件的未来贡献力量的人与OCP和Meta合作,共同分享AI基础设施的未来。