英语轻松读发新版了,欢迎下载、更新

AI工厂如何帮助缓解电网压力

2025-07-01 13:04:03 英文原文

作者:Marc Spieler

在世界许多地区,包括美国的主要技术中心,长达数年为了让AI工厂上网,以等待新的能源基础设施为其提供动力。

祖母绿AI,位于华盛顿特区的一家初创公司正在开发一种AI解决方案,该解决方案可以使下一代数据中心通过以更灵活和战略性的方式点击现有能源资源,使下一代数据中心能够在上网。

传统上,电网将数据中心视为僵化的能源系统操作员,假设一家500兆瓦的AI工厂将始终需要访问全部功率,” Emerald AI的创始人兼首席执行官Varun Sivaram说。但是,在需要时,当对电网峰和供应的需求很短时,驱动AI工厂能源使用的工作量现在可以灵活。”

启动的祖母绿导体平台可以实现这种灵活性,这是一个由AI驱动的系统,它充当网格和数据中心之间的智能中介。在最近在亚利桑那州凤凰城进行的现场测试中,该公司及其合作伙伴表明,在网格压力事件中,在保留计算服务质量的同时,在3个小时内,在256 NVIDIA GPU的集群中,在256 NVIDIA GPU的集群上运行的AI工作负载的功率减少了25%。

Emerald AI通过策划了许多不同的工作负载来实现这一目标AI工厂跑步。有些工作可以暂停或放慢,例如训练或微调大语言模型用于学术研究。其他人,例如数千甚至数百万人使用的AI服务的推理查询,可以重新安排,但可以将其重定向到另一个数据中心,在该数据中心,在该数据中心,在该数据中心压力较小。

祖母绿导体在数据中心网络上协调这些AI工作负载,以满足电网需求,从而确保时间敏感的工作负载的全部性能,同时动态减少在可接受的范围内的灵活工作负载的吞吐量。

除了帮助AI工厂使用现有电力系统上网外,这种调节电力使用的能力还可以帮助城市避免停电,保护社区免受效用速度上升的速度,并使电网更容易整合清洁能源。

如果该电网具有大量的减震器,可以随着电源的变化而变化,那么可再生能源是间歇性和可变的,它更容易添加到网格中。数据中心可以成为其中一些减震器。

一个成员Nvidia Inception初创企业的计划和nventures今天,翡翠AI的投资组合公司宣布了超过2400万美元的种子资金。它的凤凰示范,一部分EPRI的DCFLEX数据中心灵活性计划,与NVIDIA,Oracle Cloud Infrastructure(OCI)和区域Power Utility Salt River Project(SRP)合作执行。

领导EPRI的DCFLEX财团的Anuja Ratnayake说,Phoenix技术试验验证了数据中心灵活性中基本要素的巨大潜力。

EPRI也在领导打开电力AI联盟,一组能源公司,研究人员和技术公司,包括NVIDIA,为能源领域的AI应用工作。

利用网格充分的潜力

电网容量通常没有用,除非在炎热的夏季或寒冷的冬季暴风雨等高峰事件中,当时有高功率对冷却和加热的需求。这意味着,在许多情况下,只要在高峰需求期间,它们可以暂时拨打能量使用情况,就在现有的网格上有空间。

杜克大学最近的一项研究估计如果新的AI数据中心一次只能在一次不到200个小时的时间内将电力消耗量仅25%,那么他们可以解锁100吉瓦的新能力来连接数据中心 -相当于超过2万亿美元的数据中心投资

Quote from article

将AI工厂的灵活性放在测试中

Emerald AI最近的试验是在NVIDIA GPU的Oracle Cloud Phoenix地区进行的,分布在通过Databricks Mosaicml管理的多型群集中。

'Pradeep Vincent说,迅速向AI客户交付高性能计算至关重要,但受网格电力的可用性限制。``计算基础架构对实时网格条件有响应的基础架构,同时启动性能会解锁一个新的模型,以更快,更绿,更加绿色,更觉醒。”

Databricks首席AI科学家Jonathan Frankle指导了AI工作量的选择及其灵活性阈值。

弗兰克尔说,弗兰克说,AI工作负载的运行方式具有一定程度的潜在灵活性。”通常,一小部分的工作是真正不可夺回的,而许多工作(例如培训,批次推理或微调)具有不同的优先级,具体取决于用户。”

由于亚利桑那州是数据中心增长的最佳州之一,因此SRP设置了AI Compute集群的挑战灵活性目标 - 与基线​​负载相比,减少了25%的功耗 - 以证明新数据中心如何为凤凰城的功率电网约束提供有意义的缓解。

SRP总裁David Rousseau说,这项测试是一个完全重新想象AI数据中心的机会,以帮助我们更有效,更可靠地操作电网。” SRP总裁David Rousseau说。

5月3日,在凤凰城的炎热天气,需求较高,SRP的系统在下午6点达到了高峰需求。在测试期间,数据中心群集在下降15分钟的情况下逐渐减少消耗量,在三个小时内保持了25%的功率降低,然后逐渐增加,而没有超过其原始的基线消耗。

AI工厂用户可以标记其工作量,以指导翡翠软件,在该软件上可以放慢,暂停或重新安排工作,或者,翡翠的AI代理可以自动做出这些预测。

Dual chart showing GPU cluster power and SRP load over time in Phoenix on May 3, 2025, alongside a bar chart comparing job performance across flex tiers.
(左图):2025年5月3日在SRP电网峰值需求期间的AI GPU群集功耗;(右图):灵活性层的AI作业表现。Flex 1允许在六个小时的时间内最多可减少10%的平均吞吐量,flex 2最高25%,弯曲3最高30%。图由祖母绿AI提供。

编排决策是由祖母绿模拟器指导的,祖母绿模拟器可以准确地对系统行为进行建模,以优化能源使用和AI性能之间的权衡。数据提供商Amperon的历史电网需求证实,AI群集在网格的峰值期间正确执行。

Line graph showing power usage over time on May 2, 2025, for simulator, AI cluster and individual jobs.
AI GPU群集功率与现实世界测量的功耗的翡翠模拟器预测的比较。图由祖母绿AI提供。

锻造能源的未来

国际能源机构预测,全球数据中心的电力需求到2030年可以翻倍。鉴于对电网的预期需求,得克萨斯州通过了一项法律,该法律要求数据中心在负载棚事件期间在公用事业要求下逐渐消耗或与电网脱离电网。

Sivaram说:`在这种情况下,如果数据中心能够动态减少其能耗,他们可能会避免完全启动电源。”

展望未来,Emerald AI正在扩大在亚利桑那州及以后的技术试验,并计划继续与NVIDIA合作,在AI工厂测试其技术。

Sivaram说,我们可以使数据中心可控制,同时确保可接受的AI性能。”当用户需要时,AI工厂可能会在网格紧张时弯曲。

了解更多有关Nvidia Inception并探索为电力和公用事业设计的AI平台

关于《AI工厂如何帮助缓解电网压力》的评论


暂无评论

发表评论

摘要

位于华盛顿特区的一家初创公司Emerald AI开发了一种名为Emerald指挥的AI解决方案,该解决方案可帮助数据中心更灵活地使用现有的能源资源。这项技术可在不损害计算性能的情况下降低网格应力事件期间的功耗。在亚利桑那州凤凰城的现场测试中,该平台在维持服务质量的同时,在三个小时内降低了25%的功率使用情况。该系统协调多个数据中心的各种AI工作负载,以满足电网需求并更有效地整合清洁能源。Emerald AI最近获得了2400万美元的种子资金,并正在与NVIDIA,Oracle Cloud Infrastructure(OCI)和Salt River Project(SRP)合作,旨在进一步试验,旨在更快地扩展AI操作,更加绿色和更多的网格。