作者:Chris Mellor
分析。思科宣布推出一款基于 Nvidia 的 GPU 服务器,用于处理 AI 工作负载以及具有“可选”存储的即插即用 AI POD,但思科并未包含在 Nvidia 的产品中企业参考架构合作伙伴名单。
Switchzilla 推出了专为 GPU 密集型 AI 工作负载而构建的 AI 服务器系列,采用 Nvidia 加速计算和 AI POD,以简化 AI 基础设施投资并降低风险。服务器部分是 UCS C885A M8 机架服务器,配备 Nvidia H100 和 H200 Tensor Core GPU 以及 BlueField-3 DPU,可加速 GPU 对数据的访问。用于推理的 AI POD 是全栈融合基础设施设计,包括服务器、网络和 Nvidia 的企业人工智能软件组合 (NVAIE),但它们实际上并未指定该数据的存储。
思科网页表示 AI POD 是基于 CVD 的边缘推理、RAG 和大规模推理解决方案,这意味着不是 AI 训练。CVD 代表思科验证设计,“经过严格测试的全面指南,可帮助客户有效部署和管理 IT 基础设施。”
该网页有一个用于推理的 AI POD 图,显示了组件,其中包括加速计算(服务器)元素:
我们获悉,用于推理的思科 AI 基础设施 POD 在基础设施的每一层都具有独立的可扩展性,非常适合 DC 或边缘 AI 部署。有四种配置,可改变 POD 中 CPU 和 GPU 的数量。无论配置如何,它们都包含:
请注意 M7 计算节点,这意味着思科第七代 UCS。新一代 M8 GPU 服务器不包含在内,因此不属于此 AI POD。也不包括 Nvidia 的 BlueField-3 SuperNIC/DPU。
因此,我们认为思科的 AI POD for Inferencing 无法满足 Nvidia 的企业参考架构 (RA) 需求,这也是思科没有被 Nvidia 列为合作伙伴的原因。Enterprise RA 公告称:“Nvidia 的全球合作伙伴可以提供基于 Nvidia Enterprise RA 的解决方案,包括 Dell Technologies、Hewlett Packard Enterprise、Lenovo 和 Supermicro。”
我们向思科和 Nvidia 询问了思科作为企业 RA 合作伙伴以及 AI POD 是经过企业 RA 验证的系统的情况。思科发言人回答了我们的问题。
块和文件:Cisco AI POD 是 NVIDIA RA 计划的一部分吗?如果不是,原因是什么?
思科:Nvidia 此前曾为云提供商和超大规模提供商推出参考架构,他们最近的公告将这些 RA 扩展到企业部署。他们的 RA 计划与思科的验证设计没有什么不同。Nvidia RA 的一个关键组件是 SpectrumX 以太网网络,该网络不作为思科 AI POD 的一部分提供。此外,随着时间的推移,AI POD 将提供 GPU 提供商的选择。无论 PODS 还是 RA,思科和 Nvidia 都一致认为,我们的客户需要我们通过简化我们的产品和提供经过试验和测试的解决方案来帮助他们走上这一旅程,帮助他们更快地前进。
块和文件:AI POD 是否包含最新的 UCS C885A M8 服务器?
思科:UCS C885A M8 目前还不是 AI POD 的一部分,但计划用于未来的 POD。UCS C885A M8 刚刚在思科合作伙伴峰会上宣布,将于 12 月开始发货。届时,思科将开发验证设计,该设计将用作创建用于训练和大规模推理的 AI POD 的基础。一切都说完了——还有更多。
****
尽管 AI POD 被描述为“预先确定大小和配置的基础设施包,从而消除了部署 AI 推理解决方案时的猜测”,但上面的 AI POD 图中并未识别出存储组件。
相反,Pure Storage 或 NetApp 都被视为提供融合基础设施 (CI) 组件。该网页显示:“NetApp (FlexPod) 和 Pure Storage (FlashStack) 也提供可选存储。”
我们觉得这很奇怪,有两个原因。我们认为人工智能推理显然严重依赖于必须存储的潜在大量数据。然而,AI POD 的存储部分是“可选的”,几乎没有帮助“消除部署 AI 推理解决方案时的猜测”。
块和文件:为什么 AI POD 中的存储是可选的?
思科:在合作伙伴峰会上推出的 AI POD 用于推理和 RAG 用例。推理不一定需要大量存储。为了满足客户的需求,我们希望使存储组件成为此用例的可选组件。使用适用于 RAG 的 AI POD 的客户可以将 NetApp 或 Pure 添加为融合基础设施堆栈(FlexPod、FlashStack)的一部分,该堆栈通过渠道内见面模型提供。对于未来的 POD,其中用例需要更多存储需求方面,我们将与我们的存储合作伙伴进行充分整合。
****
此外,FlexPod 本身就是一个完整的 CI 系统,包括 Cisco 服务器 (UCS)、Cisco 网络(Nexus 和/或 MDS)和 NetApp 存储,具有以下功能:170种具体配置。存储可以是 ONTAP 全闪存、混合阵列或 StorageGRID 对象系统。
思科的 AI POD 设计声称是用于 AI 推理的完整 CI 堆栈,需要包括特定的 NetApp 存储,而不是本身就是 CI 堆栈的 NetApp 实体 (FlexPod)。
纯粹的闪存堆栈与 FlexPod 一样,它是一个完整的 CI 堆栈,具有“超过 25 个预先验证的解决方案,可快速部署和支持任何应用程序或工作负载。”它具有“集成的存储、计算和网络层。”
同样,思科的 AI POD 设计需要指定哪些 Pure Storage 产品(FlashArray 或 FlashBlade)以及允许的配置是 AI POD 的有效组件,而不仅仅是参考 Pure 的完整 CI FlashStack。
如果有专门用于 AI 推理的 FlexPod 或用于 AI 推理设计的 FlashStack,可能会更有意义。至少这样客户就可以从一个供应商或其合作伙伴那里获得融合的人工智能基础设施,而不必先去思科,然后再单独去NetApp或Pure。当 AI POD for Inferencing CI 概念涉及 FlexPod 和 FlashStack CI 系统时,它可能会令人困惑。