Cerebras 视频显示 AI 编写代码的速度比世界上最快的 AI GPU 云快 75 倍——世界上最大的芯片在正面对比中击败了 AWS 最快的芯片

Cerebras 让 Meta 的 Llama 3.1 405B 大型语言模型以每秒 969 个令牌的速度运行，比之前快了 75 倍亚马逊Web Services 最快的 GPU 人工智能服务可能会集结起来。

法学硕士在 Cerebras 的云 AI 服务 Cerebras Inference 上运行，该服务使用该芯片公司的第三代晶圆级发动机而不是 Nvidia 或 AMD 的 GPU。Cerebras 一直声称其推理服务是生成令牌（构成法学硕士响应的各个部分）最快的服务。第一次的时候推出8 月，Cerebras Inference 据称比 Llama 3.1 8B 和 Llama 3.1 70B 中通过 Amazon Web Services 等云提供商运行的 Nvidia GPU 快约 20 倍。

但自 7 月以来，Meta 提供了 Llama 3.1 405B，其拥有 4050 亿个参数，使其成为比拥有 700 亿个参数的 Llama 3.1 70B 更重的模型。大脑说其 Wafer Scale Engine 处理器可以“即时速度”运行这个大规模的 LLM，令牌速率为每秒 969 个，首次令牌时间仅为 0.24 秒；据该公司称，这是一项世界纪录，不仅是其芯片，还包括 Llama 3.1 405B 型号。

与从 AWS 租用的 Nvidia GPU 相比，Cerebras Inference 的速度显然快了 75 倍；Wafer Scale Engine 芯片的速度甚至比 Together AI 最快的 Nvidia GPU 还要快 12 倍。其最接近的竞争对手、人工智能处理器设计商 SambaNova 被 Cerebras Inference 击败了 6 倍。

为了说明其速度有多快，Cerebras 促使 Fireworks（最快的配备 GPU 的 AI 云服务）和 Inference 用 Python 创建一个国际象棋程序。Cerebras Inference 大约需要 3 秒，而 Fireworks 则需要 20 秒。

以下是即时 405B 的样子：Cerebras 与最快的 GPU 云：pic.twitter.com/d49pJmh3yT2024 年 11 月 18 日

“Cerebras 上的 Llama 3.1 405B 是迄今为止世界上最快的前沿模型，比 GPT-4o 快 12 倍，比 Claude 3.5 Sonnet 快 18 倍，”Cerebras 表示。– 得益于 Meta 的开放方法和 Cerebras 突破性推理技术的结合，Llama 3.1-405B 现在的运行速度比封闭前沿模型快 10 倍以上。 –

即使将查询大小从 1,000 个令牌增加到 100,000 个令牌（提示至少由几千个单词组成），Cerebras Inference 显然仍以每秒 539 个令牌的速度运行。在甚至可以运行此工作负载的其他五个服务中，最好的服务每秒仅收集 49 个令牌。

将 Tom's Hardware 的最佳新闻和深入评论直接发送到您的收件箱。

Cerebras 还吹嘘说，在分子动力学模拟中，仅一个第二代 Wafer Scale Engine 的性能就比 Frontier 超级计算机高出 768 倍。Frontier 曾是世界上最快的超级计算机直到周一 El Capitan 超级计算机推出，拥有 9,472 个 AMD 的 Epyc CPU。

此外，Cerebras 芯片的性能比 Anton 3 超级计算机高出 20%，考虑到 Anton 3 是为分子动力学而构建的，这是一项重大成就；其每秒 110 万个模拟步骤的性能也是计算机首次突破百万模拟步骤的障碍。

Cerebras 视频显示 AI 编写代码的速度比世界上最快的 AI GPU 云快 75 倍——世界上最大的芯片在正面对比中击败了 AWS 最快的芯片

关于《Cerebras 视频显示 AI 编写代码的速度比世界上最快的 AI GPU 云快 75 倍——世界上最大的芯片在正面对比中击败了 AWS 最快的芯片》的评论

发表评论

摘要

相关新闻

相关讨论