涡轮增压AI工厂具有DPU加速服务代理Kubernetes |NVIDIA技术博客

2025-07-07 18:46:44 英文原文

作者：By Shai Tsur and Ash Bhalgat

随着AI随着代理AI的计划，研究和推理的发展，工作流程变得越来越复杂。为了有效地部署代理AI应用程序，AI云需要软件定义的，硬件加速的应用程序输送控制器（ADC）。这样可以使动态负载平衡，稳健的安全性，云本地多租赁和丰富的可观察性。F5 Big-IP ADC用于Kubernetes，由NVIDIA Bluefield-3数据处理单元（DPU），简化了Kubernetes的应用程序交付和代理AI的部署，同时降低了由于运营效率和最佳功耗而导致的总拥有成本。”

自2022年推出OpenAi的Chatgpt以来，AI已迅速发展。最初，AI专注于使用GPU来处理大型数据集并优化性能的模型培训。如今，重点已扩展到分布式推论，大型语言模型（LLMS）回答查询，通过检索演出的生成（RAG）集成企业数据，并开发了诸如DeepSeek R1之类的推理模型。

代理AI现在将生成AI提升到一个新的水平。代理AI不是通过计划和推理解决复杂的问题，而不是在回答问题时采用的单一方法。作为代理AI的一个例子数字人类蓝图下面的工作流程包含了十几个容器化的NVIDIA推理微服务（NIM），包括LLMS，Vector数据库，抹布，语音识别和Avatar渲染。这些组件共同创建凝聚力的代理工作流程。

A diagram of an agentic AI workflow, showing interconnections between 20 different system components — *图1。代理AI工作流程*

代理工作流程规划，推理，测试时间缩放和长期思考更加复杂。因为他们在数据中心或多个数据中心内使用许多组件和数据存储，所以在单个节点上实现AgentIC AI变得不切实际。代理AI推断需要分布式和分解由加速计算，网络和存储组成的多节点基础结构，以处理Agentic AI系统组件之间的恒定数据移动。

BlueField-3 DPU是优化AI云和AI工厂中AI数据移动的关键。Bluefield是一个加速的网络平台，将高性能和可编程的加速发动机与功率高效的ARM计算芯相结合。这种组合在编程代理AI数据之间提供了性能，效率和灵活性，而相互联系的组件之间则流动。

为了简化AI工厂的部署和运营，NVIDIA为主权AI云运营商，也称为NVIDIA Cloud Partners（NCP）。Bluefield是此参考体系结构的关键组件，因为它有效地处理了南北网络，包括GPU群集的集群间流量和存储访问。

A diagram of NVIDIA Cloud Partners reference architecture. It showcases an accelerated compute infrastructure stack and per-tenant infrastructure. BlueField-3 is a key element for enabling the north-south ethernet fabric. — *图2。NCP的参考架构*

引入F5 Big-IP下一步

优化的数据中心基础架构对于AI云和AI工厂至关重要，因此，高性能，有效的应用传递控制器（ADC）也是如此。F5的Big-IP接下来的Kubernetes（Bink）ADC提供了动态的负载平衡，稳健的安全性，云原状多租赁和AI工厂的丰富可观察性。Bink，用Bluefield-3加速，启用高性能云本地网络，并且对AI云的零值安全性，简化了代理AI部署和操作。

Kubernetes有望轻松的可伸缩性和对云本地应用的监视，但通常会导致复杂性。在Kubernetes中部署微服务涉及许多元素，例如入口和出口控制器，微分段，网络策略管理，身份管理，API策略和服务网格，使数据流与应用程序变得困难。代理AI部署很复杂，因为它依赖于在不同环境中部署的多个微服务。此外，AI Clouds面临着GPU资源颗粒状分区的挑战，同时有效地跟踪每个客户的使用情况。

NCP和Sovereign AI云提供商需要云本地的多租户，以在多个客户中有效利用GPU资源，而不是为每个客户提供过度分配。使用Bluefield-3加速的Bink学习并将流量路由到Kubernetes名称空间，从而提供了真正的云原状负载平衡。

Two blocks show GPU clusters with and without BIG-IP Next for Kubernetes.The block on the left without BIG-IP Next for Kubernetes shows underutilized resources. The block on the right with BIG-IP Next for Kubernetes shows maximum utilization of resources. — *图3。使用kubernetes名称空间的多租户*

Bluefield-3加速的Bink还通过将数据路径从主机CPU服务器卸载到DPU上的功率有效的ARM内核来提高功率效率，同时增强吞吐量。就每瓦吞吐量而言，这意味着更高的网络能效。

软银的经验

软银运营着世界上20个最大的超级计算机中的两个，并开发了著名的日本LLM Sarashina。为了将其云本地数据中心从培训扩展到提供可扩展的AI推理服务，软银需要企业级租户隔离和安全性。它必须有效地利用所有可用的计算资源，同时最大程度地减少功耗并保持高网络性能。

软银在NVIDIA H100 GPU群集上测试了Bink。概念证明（POC）测量了在两个单独的Kubernetes名称空间上运行的应用程序的网络性能。每个租户名称空间完全隔离了网络流量。

在POC期间，软银生成了100个并发的HTTP请求，每秒75 Gbps和18,000个请求。接下来，软银将加速的Bink的运行效率与BlueField-3的加速效率与在主机CPU上运行的开源NGINX进行了比较。结果令人印象深刻。

Two graphs comparing performance. On the left, SoftBankâ€™s BINK, accelerated by NVIDIA BlueField-3 DPU, handles 100 concurrent HTTP GET requests at 75 Gbps and 18,000 requests/sec, significantly surpassing open source Nginx running on a host CPU. — *图4。blive bluefield-3的Bink胜过开源nginx。*

CPU卸载：Bluefield-3加速Bink可以实现77 Gbps吞吐量，而无需消耗任何CPU核心与开源NGINX，作为入口控制器交付了65 Gbps，同时消耗了30个宿主核心。
潜伏期：HTTP获得响应（L7请求的第一字节的时间）低11倍，而Bluefield供电的Bink。

CPU利用率：与NGINX主机软件相比，Bluefield的Bink与Bluefield的CPU利用率降低了99％。
网络能源效率（以每瓦的吞吐量为单位）：蓝场加速度以57 Gbps/watt和0.3 Gbps/watt的开源Nginx提供了190倍的能量效率。

该POC显示了如何使用BlueField-3加速的F5应用程序输送控制器有效地管理北到AI云的交通。

结论

AI云和人工智能工厂需要构建高性能，功率效率，云本地多租户和安全性的云本地数据中心。NVIDIA与F5的合作达到了一流的表现，安全性和效率。SoftBank令人印象深刻的POC结果证明了使用DPU涡轮增压工厂的卸载和加速申请交付，以满足现代AI工作量的极端需求。”

有关软银的POC和F5 Big-IP的功能的更多信息，请参阅bluefield-3加速度的Kubernetes，请参阅详细信息NVIDIA GTC推介会。

在今年的RSA会议上，F5和NVIDIA宣布由BlueField-3提供动力的Kubernetes（Bink）的Big-IP的总体可用性，以应对AI云的主要Kubernetes网络和安全挑战。请联系您的F5或NVIDIA销售代表以进行演示或POC查询。

关于《涡轮增压AI工厂具有DPU加速服务代理Kubernetes |NVIDIA技术博客》的评论

暂无评论

发表评论

摘要

AI对代理功能的演变正在推动对AI云环境中高级，软件定义的应用程序交付控制器（ADC）的需求。F5 Big-IP ADC与NVIDIA Bluefield-3 DPU的集成可以优化基于Kubernetes的复杂代理AI工作流程的部署，从而通过提高效率和功率消耗来降低运营成本，从而增强负载平衡，安全性和可观察性。这项合作解决了现代AI工作负载的需求，这是由软银的概念验证测试验证的，与传统解决方案相比，表明了卓越的性能和能源效率。

涡轮增压AI工厂具有DPU加速服务代理Kubernetes |NVIDIA技术博客

引入F5 Big-IP下一步

软银的经验

结论

关于《涡轮增压AI工厂具有DPU加速服务代理Kubernetes |NVIDIA技术博客》的评论

发表评论

摘要

相关新闻

相关讨论