评论随着人工智能热潮进入第三个年头,明年将会出现一些真正庞大的计算项目。迄今为止披露的规模最大的计划之一是 xAI 计划将其 Colossus AI 超级计算机从已经令人印象深刻的 10 万个 GPU 扩展到 100 万个。
这样的数字似乎不符合逻辑。即使您可以为此采购足够的 GPU新巨像,支持它所需的电力和冷却——更不用说资本——将是巨大的。
按照每次 30,000 至 40,000 美元的价格计算,再增加 900,000 个 GPU 将使 xAI 损失 27 至 360 亿美元。即使有很大的批量折扣,无论它们是否在几年内部署,它仍然不会便宜。哦,这甚至没有考虑到支持所有这些加速器的建筑、冷却和电力基础设施的成本。
说到功率,根据 xAI 计划部署哪一代加速器,仅 GPU 节点就需要大约 1.2 至 1.5 吉瓦的功率。这比典型的核反应堆和大型核反应堆还要多。再说一次,这只是为了计算。
你的本能反应可能是将这些数字归咎于一位古怪的亿万富翁,他的即兴俏皮话被当地商会视为真理,然后被当地商会鹦鹉学舌地奉为事实。然而,当你考虑到竞争对手正在做什么时,这个新庞然大物的规模开始看起来不那么疯狂了。
同一周,大孟菲斯商会公布了有关 xAI 扩张计划、竞争对手模型开发和 Xitter 竞争对手 Meta 的详细信息宣布拥有自己的大型数据中心园区。该设施计划在路易斯安那州里奇兰教区建造,占地 400 万平方英尺,耗资 100 亿美元。
Meta 尚未透露该工厂可能拥有多少个加速器,但首席执行官马克扎克伯格已经透露了坚定的仅今年就部署了 600,000 个 GPU。为了正确看待这个数字,那就是几乎一样多H100 级 GPU 分析师认为 Nvidia 的出货量将在 2023 年全年实现。
据我们所知,该站点可能会在未来几年内分阶段建设,并且将消耗大量电力。
作为参考,具有多个数据大厅的典型云数据中心园区的额定容量约为 50 兆瓦,这并不罕见。由于美国的电力限制已经给数据中心运营商带来了问题,您可能会认为这对所有这些痴迷于人工智能的超大规模企业、云提供商和模型构建者来说都是一个问题,但事实上,他们只是为自己的发电厂提供资金。
至于Meta的路易斯安那园区,它与Entergy合作建造了三台燃气轮机,总发电量超过2.2吉瓦。
我们将不得不等待,看看整个网站是否已经完成。我们只能想象人工智能泡沫破裂可能会迅速破坏这些计划——假设它实际上是泡沫。我们会让您在评论中对此进行辩论。
无论如何,由于数量如此之大,突然间建造一座核电站的电力的想法听起来并不那么疯狂。事实上,Meta 似乎非常有信心其电力需求将继续增长,因此它已经开始钓鱼供应商可以在 2030 年代初获得 1 到 4 吉瓦的核能。
科技巨头集体降温的人工智能热潮对整个核工业来说是一种巨大的变化,云提供商拿出现金来恢复退役的反应堆,甚至把他们的数据中心放在电表后面。AWS 的新案例积云数据中心综合体。
说到亚马逊,当然不仅仅是 Meta 和 xAI 拥有远大的梦想。这家电子商务巨头转型为云提供商,上周加大了其人工智能野心的力度。在 re:Invent 上,这家超大规模企业展示了一系列人工智能产品、系统和模型,其中包括与模型构建器 Anthropic 合作构建的人工智能超级计算机,使用“数十万”其定制的 Trainium2 加速器,我们只能想象它本身需要相当大的功率。
今年夏天早些时候,我们开玩笑Oracle 的“zettascale”超级计算机在 4 位精度和稀疏性的帮助下,将具有 2.4 zettaFLOPS 的峰值输出。
虽然在当今最常用的 FP/BF16 精度下,实际训练性能将接近 459 exaFLOPS,但它仍将使用大量 GPU(总计 131,072 个)来完成此任务。虽然还不到一百万,但与 CoreWeave 和其他公司部署的集群相比,仍然相当庞大。
我们可以继续前进——但你明白了。
围绕生成式人工智能的炒作似乎不仅仅改变了我们对扩展计算的思考方式。
在很多方面,我们所看到的围绕人工智能的资本动员让人想起太空竞赛,只是中国而不是俄罗斯扮演了红色威胁的角色。
将人类送入轨道(更不用说登月)所需的障碍数量巨大,迫使科学家和工程师克服挑战并推进技术,推动整个世界向前发展。
虽然这一切肯定都存在民族主义因素,但这不仅仅是一个国家与另一个国家的竞争。推动这些投资的是世界上一些最大、最强大的公司。
似乎在这场新的人工智能军备竞赛中,我们可能会看到类似的事件过程,因为电力、冷却和经济限制推动了对核电或可持续计算等领域的投资。这并不是因为这是正确的做法,而是因为这是赢得和输掉比赛以及通过这样做赚钱之间的区别。®