大多数急于采用人工智能的企业都没有准备好应对人工智能对其基础设施带来的能源需求,而且很少有人了解人工智能系统的功耗或其对数据中心的影响。
AI芯片企业委托研究桑巴诺瓦研究发现,72% 的企业领导者意识到人工智能模型具有巨大的能源需求,许多人对此表示担忧,但只有 13% 的企业领导者监控他们部署的人工智能系统的功耗。
在大多数情况下,功耗是由于对高耗电 GPU 的依赖而导致的,这些 GPU 被塞进高性能服务器系统中来处理模型训练。SambaNova 首席执行官梁罗德里戈表示:
“如果不采取积极主动的方法来提高人工智能硬件和能源消耗的效率,特别是面对人工智能工作流程不断增长的需求,我们就有可能破坏人工智能所承诺的进步。”
他预计人们的态度将会改变,并预测到 2027 年,大多数企业领导者将密切关注能源消耗,将其作为关键绩效指标 (KPI)。
所谓代理人工智能模型的兴起更是推动了这一趋势。SambaNova 表示,这些系统被开发为能够采取自主行动并解决多步骤问题,但它们的复杂性将加剧能源问题。
当然,SambaNova 正在推销其人工智能芯片,与公司的软件堆栈一起打包在服务器中然而,作为 GPU 的低功耗替代品,并不是每个人都愿意走这条路。
对于坚持使用 GPU 的组织来说,处理耗电硬件产生的热量正在成为另一个大问题,Nvidia 的 Blackwell 产品例如,额定功率为 1,200 W。在许多情况下,这将涉及更有效的冷却系统,液体冷却变得越来越流行。
分析公司 Omdia 去年估计数据中心液体冷却收入预计到 2024 年底将达到 20 亿美元,到 2028 年将达到 50 亿美元。
然而,根据托管服务提供商 Redcentric 的说法,并非所有设施都适合配备液体冷却。
首席技术官 Paul Mardling 表示:“加大对人工智能开发和实施的投资可能会导致对数据中心的需求增加。”他补充说,建设新设施是“一项重大投资”,需要时间、规划许可、电力供应和实体建设。
“短期内,这将导致对现有数据中心的需求增加,其中许多数据中心的设计并未考虑人工智能系统所需的密度或功耗。”
他说,虽然传统设施是围绕具有 2-5 kW 功率密度机架的大厅建造的,但现在新建的设施必须容纳更高的功率密度。
“液体冷却对于功率密度大于 10 kW 的机架至关重要,并且在 5-10 kW 范围内是理想的。无论是用于热再生发电还是公共供暖项目,也可能会出现多余热量的有效利用。”
Omdia 同意人工智能正在推动能源需求和更有效冷却的需求。
高级研究总监 Vlad Galabov 表示:“是的,更多地采用人工智能计算将提高数据中心的功率密度。”登记册。
“我们已经看到了这一点,并且有几个影响:我们已经看到公用事业公司要求提供更多电力,并通过燃气发动机或涡轮机采用现场自发电,”他补充道。
电力升级还涉及预制模块,其中包含部署在校园内的额外开关设备、UPS 和电池,以实现更高的电力容量,而一些站点已经改造为高容量母线槽代替电缆,以便为机架分配更多电力。
然而,Galabov 认为,由于成本原因,这种类型的改造在较旧的数据中心中不太可能进行。
“密度的提高可能存在上限。在一个 Equinix 站点,我看到一个改造项目导致机架密度从每个机架 10 kW 增加到 30 kW。”
该具体案例涉及新的管道工程,以支持连接到机架后门热交换器的冷却液分配单元 (CDU),同时配电从电缆交换到新的母线槽,并在每个机架内安装新的配电单元 (PDU)加拉波夫告诉我们,这些都已安装完毕。
关于液体冷却的话题,他表示,一些站点已经将采用空气到液体 CDU 视为避免完全更新其数据中心内管道网络的一种方法,而微软是这种方法的大力支持者。
然而,根据 Omdia 研究总监的说法,这种技术的采用可能会受到限制,因为它们所实现的密度无法支持传入的人工智能基础设施,例如 Nvidia 的 Blackwell 机架级参考设计(NVL72)。
加拉博夫说:“在运营商不想更新机架和安装歧管以进行直接芯片液体冷却的地区,我们还看到了后门热交换器的部署,这是一个很好的应对方法。”供应商相信,通过这种布置,他们的功率可以达到 100 kW。然而,他认为这不太可能,因为环境空气的温度需要大幅降低,而这将是非常昂贵的。
对于英国企业,托管公司电话楼最近在伦敦港区园区推出了一个液体冷却实验室,展示了几种可用的技术。其中包括用于下一代服务器芯片的无水两相系统以及每个机柜功率高达 90 kW 的空气辅助液体冷却技术。®