英语轻松读发新版了,欢迎下载、更新

涡轮增压AI工厂具有DPU加速服务代理Kubernetes |NVIDIA技术博客

2025-07-07 18:46:44 英文原文

作者:By Shai Tsur and Ash Bhalgat

随着AI随着代理AI的计划,研究和推理的发展,工作流程变得越来越复杂。为了有效地部署代理AI应用程序,AI云需要软件定义的,硬件加速的应用程序输送控制器(ADC)。这样可以使动态负载平衡,稳健的安全性,云本地多租赁和丰富的可观察性。F5 Big-IP ADC用于Kubernetes,由NVIDIA Bluefield-3数据处理单元(DPU),简化了Kubernetes的应用程序交付和代理AI的部署,同时降低了由于运营效率和最佳功耗而导致的总拥有成本。” 

自2022年推出OpenAi的Chatgpt以来,AI已迅速发展。最初,AI专注于使用GPU来处理大型数据集并优化性能的模型培训。如今,重点已扩展到分布式推论,大型语言模型(LLMS)回答查询,通过检索演出的生成(RAG)集成企业数据,并开发了诸如DeepSeek R1之类的推理模型。

代理AI现在将生成AI提升到一个新的水平。代理AI不是通过计划和推理解决复杂的问题,而不是在回答问题时采用的单一方法。作为代理AI的一个例子数字人类蓝图下面的工作流程包含了十几个容器化的NVIDIA推理微服务(NIM),包括LLMS,Vector数据库,抹布,语音识别和Avatar渲染。这些组件共同创建凝聚力的代理工作流程。

A diagram of an agentic AI workflow, showing interconnections between 20 different system components
图1。代理AI工作流程

代理工作流程规划,推理,测试时间缩放和长期思考更加复杂。因为他们在数据中心或多个数据中心内使用许多组件和数据存储,所以在单个节点上实现AgentIC AI变得不切实际。代理AI推断需要分布式和分解由加速计算,网络和存储组成的多节点基础结构,以处理Agentic AI系统组件之间的恒定数据移动。

BlueField-3 DPU是优化AI云和AI工厂中AI数据移动的关键。Bluefield是一个加速的网络平台,将高性能和可编程的加速发动机与功率高效的ARM计算芯相结合。这种组合在编程代理AI数据之间提供了性能,效率和灵活性,而相互联系的组件之间则流动。

为了简化AI工厂的部署和运营,NVIDIA为主权AI云运营商,也称为NVIDIA Cloud Partners(NCP)。Bluefield是此参考体系结构的关键组件,因为它有效地处理了南北网络,包括GPU群集的集群间流量和存储访问。

A diagram of NVIDIA Cloud Partners reference architecture. It showcases an accelerated compute infrastructure stack and per-tenant infrastructure. BlueField-3 is a key element for enabling the north-south ethernet fabric.
图2。NCP的参考架构

引入F5 Big-IP下一步

优化的数据中心基础架构对于AI云和AI工厂至关重要,因此,高性能,有效的应用传递控制器(ADC)也是如此。F5的Big-IP接下来的Kubernetes(Bink)ADC提供了动态的负载平衡,稳健的安全性,云原状多租赁和AI工厂的丰富可观察性。Bink,用Bluefield-3加速,启用高性能云本地网络,并且对AI云的零值安全性,简化了代理AI部署和操作。

Kubernetes有望轻松的可伸缩性和对云本地应用的监视,但通常会导致复杂性。在Kubernetes中部署微服务涉及许多元素,例如入口和出口控制器,微分段,网络策略管理,身份管理,API策略和服务网格,使数据流与应用程序变得困难。代理AI部署很复杂,因为它依赖于在不同环境中部署的多个微服务。此外,AI Clouds面临着GPU资源颗粒状分区的挑战,同时有效地跟踪每个客户的使用情况。

NCP和Sovereign AI云提供商需要云本地的多租户,以在多个客户中有效利用GPU资源,而不是为每个客户提供过度分配。使用Bluefield-3加速的Bink学习并将流量路由到Kubernetes名称空间,从而提供了真正的云原状负载平衡。

Two blocks show GPU clusters with and without BIG-IP Next for Kubernetes.The block on the left without BIG-IP Next for Kubernetes shows underutilized resources. The block on the right with BIG-IP Next for Kubernetes shows maximum utilization of resources.
图3。使用kubernetes名称空间的多租户

Bluefield-3加速的Bink还通过将数据路径从主机CPU服务器卸载到DPU上的功率有效的ARM内核来提高功率效率,同时增强吞吐量。就每瓦吞吐量而言,这意味着更高的网络能效。

软银的经验

软银运营着世界上20个最大的超级计算机中的两个,并开发了著名的日本LLM Sarashina。为了将其云本地数据中心从培训扩展到提供可扩展的AI推理服务,软银需要企业级租户隔离和安全性。它必须有效地利用所有可用的计算资源,同时最大程度地减少功耗并保持高网络性能。 

软银在NVIDIA H100 GPU群集上测试了Bink。概念证明(POC)测量了在两个单独的Kubernetes名称空间上运行的应用程序的网络性能。每个租户名称空间完全隔离了网络流量。

在POC期间,软银生成了100个并发的HTTP请求,每秒75 Gbps和18,000个请求。接下来,软银将加速的Bink的运行效率与BlueField-3的加速效率与在主机CPU上运行的开源NGINX进行了比较。结果令人印象深刻。

Two graphs comparing performance. On the left, SoftBank’s BINK, accelerated by NVIDIA BlueField-3 DPU, handles 100 concurrent HTTP GET requests at 75 Gbps and 18,000 requests/sec, significantly surpassing open source Nginx running on a host CPU.
图4。blive bluefield-3的Bink胜过开源nginx。
  • CPU卸载:Bluefield-3加速Bink可以实现77 Gbps吞吐量,而无需消耗任何CPU核心与开源NGINX,作为入口控制器交付了65 Gbps,同时消耗了30个宿主核心。 
  • 潜伏期:HTTP获得响应(L7请求的第一字节的时间)低11倍,而Bluefield供电的Bink。
Two graphs comparing performance On the left, SoftBank’s BINK, accelerated by NVIDIA BlueField-3 DPU, handles 100 concurrent HTTP GET requests at 75 Gbps and 18,000 requests/sec, significantly surpassing open source Nginx running on a host CPU.
图4。bink with nvidia bluefield-3的表现优于开源nginx。
  • CPU利用率:与NGINX主机软件相比,Bluefield的Bink与Bluefield的CPU利用率降低了99%。
  • 网络能源效率(以每瓦的吞吐量为单位):蓝场加速度以57 Gbps/watt和0.3 Gbps/watt的开源Nginx提供了190倍的能量效率。

该POC显示了如何使用BlueField-3加速的F5应用程序输送控制器有效地管理北到AI云的交通。

结论

AI云和人工智能工厂需要构建高性能,功率效率,云本地多租户和安全性的云本地数据中心。NVIDIA与F5的合作达到了一流的表现,安全性和效率。SoftBank令人印象深刻的POC结果证明了使用DPU涡轮增压工厂的卸载和加速申请交付,以满足现代AI工作量的极端需求。” 

有关软银的POC和F5 Big-IP的功能的更多信息,请参阅bluefield-3加速度的Kubernetes,请参阅详细信息NVIDIA GTC推介会。

在今年的RSA会议上,F5和NVIDIA宣布由BlueField-3提供动力的Kubernetes(Bink)的Big-IP的总体可用性,以应对AI云的主要Kubernetes网络和安全挑战。请联系您的F5或NVIDIA销售代表以进行演示或POC查询。

关于《涡轮增压AI工厂具有DPU加速服务代理Kubernetes |NVIDIA技术博客》的评论


暂无评论

发表评论

摘要

AI对代理功能的演变正在推动对AI云环境中高级,软件定义的应用程序交付控制器(ADC)的需求。F5 Big-IP ADC与NVIDIA Bluefield-3 DPU的集成可以优化基于Kubernetes的复杂代理AI工作流程的部署,从而通过提高效率和功率消耗来降低运营成本,从而增强负载平衡,安全性和可观察性。这项合作解决了现代AI工作负载的需求,这是由软银的概念验证测试验证的,与传统解决方案相比,表明了卓越的性能和能源效率。