英语轻松读发新版了,欢迎下载、更新

Google Kubernetes引擎定制用于更快的AI工作

2025-04-09 16:04:10 英文原文

作者:Joab Jackson

拉斯维加斯 - Google Cloud是准备好对于大量的AI工作负载,并将Kubernetes作为实现的平台。

本周,在公司期间Google Cloud Next拉斯维加斯会议谷歌揭示了许多增强Google Kubernetes引擎(GKE)所有目标都旨在简化AI工作负载。

该公司还推出了其托管的基于GKE的超级计算服务,并提供了用于AI工作量的特殊住宿。

许多公司已经在运营其基础设施的船上已经拥有一些Kubernetes专业知识,因此使用相同的才能也开始他们的AI旅程是很有意义的。Gabe Monroy,在TNS采访中,在Google的Cloud Runtimes副总裁兼总经理。

Monroy说,您的Kubernetes知识和专业知识只是您的AI超级大国的意义。”

它的许多客户已经开始这条路。在过去的一年中,该公司面向AI的GPU和TPU的使用增长了900%。Monroy吹牛说,所有15个顶级GKE客户现在都将服务用于AI和机器学习(ML)工作量。

该公司预计,到2028年,AI将仅产生超过2000亿美元的年度基础设施云服务。

GKE的增强包括对新兴的Kubernetes标准的支持,称为网关API推断扩展,这将有助于更好地将AI工作负载与Kubernetes资源相结合。

一项名为Cluster Director的新的GKE超级计算服务还将将GKE机器绑架到Monster Super Computing模式中,从而使他们能够从事大型AI建模工作。

对于事情出现问题时,云公司将其Gemini AI基于AI的聊天客户端(Gemini Cloud Assist Assist Respocation)的版本放到了GKE Admin仪表板上,在那里可以调试问题。

将负载平衡器设置为

现在,在公共预览中,GKE推理网关为AI推理工作负载提供智能路由和负载平衡,并使用云本机计算基础S(CNCF)网关API推断,目前正在开发中。

CNCF的网关API推断扩展将任何Kubernetes网关变成推理网关,使训练模型优化的设置可以更好地负载平衡。

对于使用Kubernetes运行其大型语言模型(LLM)的推理平台团队的推理平台团队将特别感兴趣。

如今,他们必须与通用的负载平衡器斗争,这些平衡器与推断流量的不可预测性质不佳。罪魁祸首?可变响应时间。一些简短的问题需要很长的答案。反之亦然。也不是。它驱动了负载平衡器的预测能力。

另一个挑战:多个模型。

在任何繁荣的AI环境中,您都需要管理许多不同版本的模型,并且您必须实际管理所有这些不同模型的路由。”如今,平衡基础设施的负载只是为了这样的事情。

借助标记方案,网关是模型的,因此可以针对智能路由进行了优化,能够区分所托管模型的不同版本。

为了使pep性能,网关具有一个请求安排算法,该算法跟踪节点利用率并可以相应地调整工作负载,避免随着负载的增加而避免驱逐或排队,如GitHub,文档注释

扩展中还添加了其他一些好处,例如端到端可观察性和隔离工作。

Monroy认为GKE是第一个实施CNCF推断扩展的说法。相当雄心勃勃,最新发行的发行时间是0.40。但是在此实施中,GKE的推断网关可以将吞吐量增加40%,将尾部潜伏期降低60%,并将服务器成本降低高达30%,据Google估计。

虚拟超级计算

对于Google Next,该公司已正式推出了超级计算服务。

GKE的集群总监是一个新的服务平台,模仿了

超级计算机(以前被称为超重群集),允许用户将多台虚拟机部署为一个单元,并通过计算,存储和网络来部署。用户可以将多达65,000 GPU或TPU的群集用于一项工作。

自动维修补救措施会在工作期间下降的任何节点。

Kubernetes编排者知道有故障的群集,并在必要时可以将工作负载移至另一个实例。使用Google Cloud节目,它可以根据可用的最佳拓扑安排工作负载。

最重要的是,可以使用标准的Kubernetes API完全通过GKE运行超级计算机。为了使用GKE构建一个优化的群集,Google提供了一组可配置的蓝图。Google本身使用GKE为最近推出的Vertix AI企业ML服务。

尽管该服务具有AI扩展名,但Google认为Cluster Director是独立高性能计算机的通用替代品,巨大的裸金属机器迄今为止在很大程度上定制。

这就是Google现在正在调用的传统超级计算机市场。这些客户需要数百万核心,这些核心可以团结起来完成一项任务,例如运行大型蒙特卡洛模拟进行风险计算的金融服务。

该公司专注于优质,HPC提供了提供给应用程序的有用内容的数量。在培训方面,Goodput等于在训练跑上取得进步的时间百分比。

与集群总监有关,Google的目标是99%。

团体 用草图创建。

关于《Google Kubernetes引擎定制用于更快的AI工作》的评论


暂无评论

发表评论

摘要

Google Cloud在Google Cloud下一个会议上宣布了其Google Kubernetes引擎(GKE)的增强功能,旨在优化AI工作负载。关键功能包括: - 支持AI任务智能路由的网关API推断扩展标准。 - 介绍集群主管,该局长是一项超级计算服务,允许部署多达65,000 GPU或TPU作为一个单位。 - 估计改进:40%的吞吐量增加,60%的尾部潜伏期和最高30%的服务器成本节省。Google认为GKE是AI开发的关键,当前的顶级客户广泛用于AI/ML任务。