xAI 集群现在是世界上最强大的人工智能训练系统,但存储容量、功耗以及为什么它实际上被称为 Colossus 仍存在问题 - TechRadar

2024-09-17 02:03:09 英文原文

xAI 集群现在是世界上最强大的人工智能训练系统,但存储容量、功耗以及为什么它实际上被称为 Colossus 仍然存在问题

埃隆·马斯克表示新的 Gen-AI 训练集群仅用了 122 天就建成了

最近,埃隆·马斯克 (Elon Musk) 分享了 Cortex 的简短视频导览,Cortex 是 X 的 AI 训练超级计算机,目前正在 Teslas Giga 建设中,我们最近一睹了价值 10 亿美元的 AI GPU 的样子。德克萨斯工厂。

最近,马斯克在他的社交媒体平台上宣布 Colossus,一个新的 10 万个 H100 训练集群,现已启动并运行。

马斯克声称 Colossus 正在运行。“世界上最强大的人工智能训练系统”,并且它“从开始到结束”仅用了 122 天就建成了。这是一项相当大的成就。据报道,xAI 集群的服务器由戴尔和 Supermicro 提供,该项目的成本估计在 3-40 亿美元之间。

Colossus 的名字从何而来?

Toms硬件说明,尽管所有这些集群都已正式运行,甚至正在训练人工智能模型,但目前完全不清楚有多少集群实际上在线。首先,需要一些时间来调试和优化这些超级集群的设置。其次,X 需要确保它们获得足够的电力,虽然埃隆·马斯克的公司一直在使用 14 台柴油发电机为其孟菲斯超级计算机供电,但它们仍然不足以满足所有 100,000 个 H100 GPU 的供电。

The Colossus该系统的容量最终将增加一倍,并计划纳入额外的 100,000 个 GPU,其中包括 50,000 个 H100 单元和 50,000 个 Nvidia 的下一代 H200 芯片。该超级集群将主要用于训练 xAI 的 Grok-3,这是该公司最新、最先进的人工智能模型。我们还没有看到任何关于新系统存储的提及,但它需要很大。

然而,新超级计算机的命名引起了很多人的注意,人们注意到它与 1970 年的一部科幻电影(根据 D.F. Jones 1966 年的小说改编)同名,讲述了一台超级计算机在获得美国核武库控制权后变得有知觉的故事。可以预见的是,事情对人类来说会出现严重错误。

小说和电影都探讨了人工智能自主的及时主题、放弃对机器控制的危险以及人工智能的伦理影响。当马斯克为他的新人工智能训练系统选择名称时,他可能并没有意识到这一点,而且选择这个名称可能纯粹是为了强调超级星系团的庞大规模。话又说回来,根据马斯克的往绩,如果这种提及完全是故意的,也就不足为奇了——他确切地知道自己在做什么。

你是专业人士吗?订阅我们的时事通讯

订阅 TechRadar Pro 时事通讯,获取您的企业成功所需的所有热门新闻、观点、功能和指导!

TechRadar Pro 的更多信息

Wayne Williams 是一名自由职业者,为 TechRadar Pro 撰写新闻。30 年来,他一直在撰写有关计算机、技术和网络的文章。在此期间,他为英国大部分 PC 杂志撰稿,并创办、编辑和出版了其中一些杂志。

摘要

xAI 集群现在是世界上最强大的人工智能训练系统,但关于存储容量、功耗以及为什么它实际上被称为 Colossus 的问题仍然存在。埃隆·马斯克表示,新的 Gen-AI 训练集群仅用了 122 天就建成了。我们最近看到了 1 美元的价格埃隆·马斯克 (Elon Musk) 分享了 Cortex 的简短视频介绍,Cortex 是 X 的 AI 训练超级计算机,目前正在 Teslas Giga Texas 工厂建造,价值 10 亿美元的 AI GPU 看起来就像是这样。其次,X 需要确保它们获得足够的电力,虽然埃隆·马斯克的公司一直在使用 14 台柴油发电机为其孟菲斯超级计算机供电,但它们仍然不足以满足所有 100,000 个 H100 GPU 的供电。可以预见的是,事情对人类来说会发生可怕的错误。话又说回来,根据马斯克的往绩,如果这种提及完全是有意的,也就不足为奇了——他确切地知道自己在做什么。30 年来,他一直在撰写有关计算机、技术和网络的文章。