英语轻松读发新版了,欢迎下载、更新

英伟达最接近的竞争对手在人工智能性能方面再次碾压云巨头;在 Llama 3.1 405B 上,Cerebras Inference 比 AWS 快 75 倍,比 Google 快 32 倍

2024-12-02 18:33:00 英文原文

作者:Wayne WilliamsSocial Links NavigationEditor

Cerebras WSE-3
(图片来源:Cerebras)

  • Cerebras 在 Llama 3.1 405B 上达到每秒 969 个令牌,比 AWS 快 75 倍
  • 声称业界最低的 240 毫秒延迟,速度是 Google Vertex 的两倍
  • Cerebras Inference 在带有 WSE-3 AI 处理器的 CS-3 上运行

Cerebras Systems 表示,它通过 Meta 的 Llama 3.1 405B 模型树立了人工智能性能的新基准,实现了前所未有的每秒 969 个代币的生成速度。

第三方基准测试公司 Artificial Analysis 声称,这种性能比主要超大规模提供商基于 GPU 的产品快 75 倍。它比 SambaNova 快近六倍(每秒 164 个令牌),比 SambaNova 快 14 倍以上谷歌Vertex 每秒 30 个令牌,远远超过每秒 20 个令牌的 Azure 和每秒 13 个令牌的 AWS。

此外,该系统还展示了世界上最快的第一个代币生成时间,只需 240 毫秒,几乎是 Google Vertex 430 毫秒的两倍,远远领先于 AWS 的 1,770 毫秒。

扩大领先优势

“Cerebras 保持着 Llama 3.1 8B 和 70B 性能的世界纪录,通过这一公告,我们将领先优势扩大到 Llama 3.1 405B - 每秒交付 969 个代币,”Cerebras 联合创始人兼首席执行官 Andrew Feldman 指出大脑。

“通过即时运行最大的模型,Cerebras 能够实现世界领先的开放前沿模型的实时响应。这在整个人工智能领域开辟了强大的新用例,包括推理和多代理协作。”¤

Cerebras 推理系统由 CS-3 超级计算机及其 Wafer Scale Engine 3 (WSE-3) 提供支持,支持 16 位精度的完整 128K 上下文长度。WSE-3 被称为“世界上最快的 AI 芯片”,具有 44GB 片上 SRAM、4 万亿个晶体管和 900,000 个 AI 优化内核。它提供 125 petaflops 的峰值 AI 性能,内存带宽是同类产品的 7,000 倍。英伟达H100。

Meta 的 GenAI 副总裁 Ahmad Al-Dahle 也赞扬了 Cerebras 的最新成果,他表示:“扩展推理对于加速人工智能和开源创新至关重要。”得益于 Cerebras 团队的出色工作,Llama 3.1 405B 现在成为世界上最快的前沿型号。借助 Llama 的强大功能和我们的开放方法,现在比以往任何时候都可以为更多的开发人员提供超快速且经济实惠的推理。

订阅 TechRadar Pro 时事通讯,获取您的企业成功所需的所有热门新闻、观点、功能和指导!

该系统的客户试用正在进行中,预计于 2025 年第一季度全面上市。起价为每百万个输入代币 6 美元,每百万个输出代币 12 美元。

Cerebras tokens per second on Llama 3.1 405B

(图片来源:Cerebras)(图片来源:Cerebras)

seconds to first token received on Llama 3.1 405B

您可能还喜欢

Cerebras 的巨型 AI CPU 拥有近 100 万个核心

30 年来,他一直在撰写有关计算机、技术和网络的文章。在那段时间,他为英国大部分 PC 杂志撰稿,并创办、编辑和出版了其中一些杂志。

关于《英伟达最接近的竞争对手在人工智能性能方面再次碾压云巨头;在 Llama 3.1 405B 上,Cerebras Inference 比 AWS 快 75 倍,比 Google 快 32 倍》的评论


暂无评论

发表评论

摘要

Cerebras Systems 借助 Meta 的 Llama 3.1 405B 模型树立了 AI 性能的新基准,每秒处理 969 个令牌,比主要超大规模提供商基于 GPU 的系统快 75 倍,延迟速度是 Google Vertex 的两倍(240 毫秒 vs 430 毫秒)。Cerebras Inference 系统在配备 WSE-3 AI 处理器的 CS-3 上运行,支持 16 位精度的完整 128K 上下文长度。Meta 的 GenAI 副总裁称赞这一成就推动了开源创新,并使开发人员更容易获得超快速推理。客户试用正在进行中,预计将于 2025 年第一季度全面上市。