Tom 的硬件高级路线图
Facebook 创始人马克·扎克伯格于 2024 年 5 月表示权力将成为制约人工智能的最大因素之一确实,科技巨头和超大规模企业已经开始遇到功率限制。根据半分析仅德克萨斯州就请求了数十吉瓦的电力负荷,但只有略多于吉瓦的电力负荷获得批准,这表明电网可能捉襟见肘。
这种限制使得科技和电力公司投资小型模块化核反应堆(SMR),它可以在相对紧凑的封装中提供大量电力。微软甚至有重新投入使用旧三哩岛核电站将提供 819 兆瓦电力供人工智能和云数据中心使用。
不过,这些举措需要数年时间才能启动。三哩岛工厂预计要到 2028 年才能投入运营,而最早的小型模块化反应堆要到 2030 年代才会投入使用。甚至有人提议使用退役的美国海军反应堆作为数据中心,但项目支持者尚未提供其启动和运行速度的时间表。
燃气发生器解决问题
埃隆·马斯克是第一个使用燃气轮机发电机为如此规模和持续时间的数据中心供电xAI 的孟菲斯超级集群。2024 年,这家人工智能初创公司与田纳西河谷管理局 (TVA) 签署了一项 50 兆瓦的协议,该协议仅在几个月后就开始运营。
除了延迟之外,这远远不够该站点上运行的 100,000 个 H100 GPU 所需的 155MW。现场还有一座 150 兆瓦的变电站正在建设中,也需要额外的设置。等待这些电源上线就会否定马斯克历时 19 天建立人工智能数据中心,这是历史性的,因此他转向 VoltaGrid 来提供运行 Colossus 站点所需的电力。
仅仅几个月后,OpenAI 就跟随这位亿万富翁的脚步,订购了 29 台燃气轮机,每台发电量为 34MW位于德克萨斯州阿比林的 Stargate 数据中心。所有这些涡轮机将输出总共 986MW 的功率,这应该足以运行多达 50 万个 GB200 NVL72 芯片。因此,即使该公司无法从电网获得电力,它也可以从自己的涡轮机获得所需的电力。
据统计,除了这两个项目外,其他几个项目也正在离网,其中 62% 的数据中心考虑进行现场发电数据中心知识。此外, 天然气英特尔 预计到 2030 年,数据中心将使用 35GW 的用户侧电力。
这项技术对于美国人工智能基础设施保持领先至关重要,专家警告说这一点尤其如此中国在发电方面遥遥领先。据报道,英伟达首席执行官黄仁勋也表示“中国将赢得人工智能竞赛,”直接指出权力限制是其声明背后的原因之一。
自带网格的挑战
虽然燃气发电机似乎是解决许多数据中心面临的电力供应难题的灵丹妙药,但它也有自己的一系列问题。正常运行时间是其中的主要问题,因为数据中心需要近乎恒定的正常运行时间可靠性。为了实现这一目标,数据中心不能仅仅购买能够提供所需负载的发电机;他们需要建立冗余。
人工智能数据中心必须具有 N+1 或 N+1+1 冗余,以确保即使某些数据中心出现故障也能持续运行。N+1 意味着他们必须有一台备用发电机,以便在正常运行期间发生故障时接管发电机。同时,N+1+1 建议在现场配备额外的电源和备用电源,以防其中一台正常运行的发电机进行维护。除此之外,维护、备件、必要的人员和燃料也仍然是额外的考虑因素。
尽管存在这些挑战,但据估计,人工智能数据中心每千兆瓦每年可产生 10 至 120 亿美元的收入。马斯克于 2024 年 7 月启动了 Colossus 数据中心,而150MW变电站仅向现场供电2024 年 11 月。这意味着他在此期间可以获得 3 至 40 亿美元的收入,这可能会抵消整个站点使用天然气涡轮机运行的成本。
数据中心面临的另一个问题是许可要求,这可能需要长达一年或更长时间。据报道,位于德克萨斯州阿比林的 OpenAI/Oracle 站点因此面临延误。马斯克的 Colossus 2 工厂在田纳西州和美国边境附近建造,缓解了许可证延误的情况密西西比州,允许他通过向两个州申请许可证并确保两个州的供应来对冲他的赌注。
除此之外,这些数据中心周围的社区可能会抱怨他们建造的发电厂只是为了提供他们所需的电力。人工智能面临这个确切的问题, 居民抱怨燃气轮机产生的污染部署在孟菲斯站点周围。
尽管投资者可以投入无限量的资金来解决这个问题,但还有一个他们无法回避的因素——设备交付周期长。任何燃气轮机制造商都需要大约 12 到 36 个月的时间才能交付它们,特别是因为这些机器是复杂的机器,使用高度专业化的材料,需要特定的制造工艺。
这些交付时间可能会变得更长,特别是当更多的人工智能数据中心正在与这些公司竞争相同数量的生产能力时。
临时解决方案还是永久固定装置?
xAI 与 VoltaGrid 签订合同,在孟菲斯数据中心等待 TVA 连接期间为其供电。但即使公用事业公司最终交付了所需的 150 兆瓦电力,一些涡轮发电机仍留在现场作为系统的备用电源。这就引出了一个问题:AI数据中心是否应该完全依靠自己的力量?VoltaGrid 和其他公司似乎也这么认为,甚至向人工智能公司提供“能源即服务”或 EaaS。
这需要提供商和数据中心之间签订延长的电力购买协议,其中前者将提供后者运营所需的一切——从电力容量和日常运营到维护和正常运行时间可靠性。然而,尽管这在部署时间方面可能是有利的,但从长远来看它仍然会变得昂贵得令人望而却步。
目前,人工智能公司租用天然气发电机作为桥梁电力,使他们能够在等待当地公用事业批准的同时尽快启动和运行数据中心运营。但当他们最终将自己的站点连接到电网时,将这些移动发电机作为备用装置(以防主要电源出现故障)而不是作为唯一的电源通常更经济。
当国家电网达到极限时,EaaS 可能会作为永久解决方案。当耗电的人工智能基础设施不再有额外的容量时,人工智能公司可能别无选择,只能依靠这样的服务来启动和运行他们的项目。