Cerebras 如何突破 AI 推理的 GPU 瓶颈 - VentureBeat

2024-09-16 13:00:00 英文原文

加入我们的每日和每周时事通讯，了解有关行业领先人工智能报道的最新更新和独家内容。了解更多

Nvidia 凭借其图形处理单元 (GPU) 长期以来一直主导着人工智能计算硬件市场。然而，Cerebras Systems 将于 2024 年春季推出基于其旗舰晶圆级引擎技术的成熟第三代芯片，为企业提供创新且具有竞争力的替代方案，从而改变行业格局。

本文探讨了原因Cerebras 的新产品很重要，它如何与 Nvidia 的产品和 Groq 的产品相媲美，Groq 是另一家提供先进人工智能专用计算硬件的新初创公司，并强调了企业决策者在应对这一不断变化的环境时应考虑的因素。

首先，说明为什么 Cerebras 和 Groqs 挑战的时机如此重要。到目前为止，人工智能的大部分处理都是在大型语言模型 (LLM) 的训练中，而不是为了真正的目的而实际应用这些模型。在此期间，Nvidia 的 GPU 一直占据主导地位。然而，行业专家预计，在未来18个月内，随着许多公司一直在培训和开发的人工智能项目最终得到部署，市场将达到一个拐点。到那时，人工智能工作负载将从训练转向业界所说的推理，其中速度和效率变得更加重要。Nvidia 的 GPU 系列能否保持领先地位？

让我们深入了解一下。推理是训练有素的人工智能模型评估新数据并产生结果的过程，例如，在与大语言模型聊天期间，或者当自动驾驶汽车在交通中而不是训练时进行操纵时，模型在幕后成型，然后再生成。释放。推理对于所有人工智能应用都至关重要，从瞬间的实时交互到推动长期决策的数据分析。人工智能推理市场正处于爆炸性增长的风口浪尖，预计到 2030 年将达到 906 亿美元。

从历史上看，人工智能推理一直在 GPU 芯片上执行。这是因为在对海量数据集进行高效训练所需的并行计算方面，GPU 总体优于 CPU。然而，随着繁重推理工作负载需求的增加，GPU 会消耗大量电量，产生大量热量，并且维护成本高昂。

Cerebras 由人工智能和芯片设计专家团队于 2016 年创立，是一家AI推理硬件领域的先驱。该公司的旗舰产品晶圆级引擎（WSE）是一款革命性的人工智能处理器，为推理性能和效率树立了新的标杆。最近推出的第三代 CS-3 芯片拥有 4 万亿个晶体管，使其成为有史以来物理上最大的神经网络芯片，比最大的 GPU 大 56 倍，其尺寸更接近餐盘而不是邮票。它包含的片上内存增加了 3000 倍。这意味着单个芯片无需联网即可处理巨大的工作负载，这是一种架构创新，可实现更快的处理速度、更大的可扩展性并降低功耗。

CS-3 在大语言模型方面表现出色；报告表明，Cerebras 芯片每秒可以为 Llama 3.1 8B 模型处理令人瞠目结舌的 1,800 个令牌，远远超过当前基于 GPU 的解决方案。此外，由于定价仅为每百万代币 10 美分，Cerebras 将自己定位为具有竞争力的解决方案。

对速度的需求

考虑到对人工智能推理的需求，它是不存在的。令人惊讶的是，Cerebras 令人印象深刻的统计数据引起了业界的关注。事实上，该公司在早期就获得了足够的关注，其新闻资料中引用了几位行业领导者对其技术的赞扬。

葛兰素史克 (GlaxoSmithKline) 人工智能/机器学习高级副总裁 Kim Branson 表示，速度和规模改变了一切，其中的推动力据报道，Cerebras 提供的 CS-3 提高了该公司处理用于药物发现和分析的海量数据集的能力。

Perplexity 首席技术官 Denis Yarats 认为超快速推理是重塑搜索引擎和用户的关键经验。Yarats 表示，较低的延迟可以提高用户参与度。凭借 Cerebras 相对于传统 GPU 20 倍的速度优势，我们相信用户与搜索和智能答案引擎的交互将从根本上发生转变。

LiveKit 首席执行官 Russell dSa 强调了 Cerebras 超快推理如何帮助他的公司开发具有基于语音和视频交互的下一代多模式人工智能应用程序。将 Cerebras 一流的计算与 LiveKits 全球边缘网络相结合，使我们能够创造出更加人性化的 AI 体验，这要归功于系统的超低延迟。

竞争格局：Nvidia vs. Groq vs.. Cerebras

尽管 Cerebras 拥有强大的技术，但它面临着竞争激烈的市场。Nvidia 在人工智能硬件市场的主导地位已经确立，其 Hopper GPU 是训练和运行人工智能模型的主要产品。Nvidia GPU 上的计算可通过 Amazon Web Services、Google Cloud Platform 或 Microsoft Azure 等云提供商获得，Nvidia 成熟的市场影响力使其在生态系统支持和客户信任方面具有显着优势。

但是，AI硬件市场不断发展，竞争日趋激烈。另一家人工智能芯片初创公司 Groq 也凭借自己的专注于推理的语言处理单元 (LPU) 引起了轰动。基于专有的张量流处理器 (TSP) 技术，Groq 还拥有令人印象深刻的性能基准、能源效率和具有竞争力的价格。

尽管 Cerebras 和 Groq 的性能令人印象深刻，但许多企业决策者可能还没有听说过太多关于它们，主要是因为它们是该领域的新进入者，并且仍在扩展其分销渠道，而 Nvidia GPU 可从所有主要云提供商处获得。然而，Cerebras 和 Groq 现在都提供强大的云计算解决方案并销售其硬件。Cerebras Cloud 提供灵活的定价模型，包括按模型和按代币的选项，允许用户扩展其工作负载，而无需大量的前期投资。同样，Groq Cloud 为用户提供了通过云访问其尖端推理硬件的能力，并声称用户可以通过切换三行代码来从 OpenAI 等其他提供商切换。两家公司的云产品都允许决策者以更低的成本和更大的灵活性试验先进的人工智能推理技术，尽管与 Nvidia 相比，它们的市场份额较小，但上手相对容易。

选项叠加？

Nvidia

性能：像 H100 这样的 GPU 在并行处理任务方面表现出色，但无法与用于 AI 推理的专用 CS-3 和 LPU 的速度相匹配.
能源效率：虽然 Nvidia 在提高 GPU 的能源效率方面取得了长足进步，但与 Cerebras 和 Groqs 产品相比，它们仍然耗电。
可扩展性：GPU 具有高度可扩展性，具有连接多个 GPU 以处理大型 AI 模型的完善方法。
灵活性：Nvidia 通过其 CUDA 编程模型和广泛的软件生态系统提供广泛的定制。这种灵活性使开发人员能够根据 AI 推理和训练之外的各种计算任务定制 GPU 设置。
云计算访问：Nvidia GPU 计算即服务可通过许多云提供商（例如 GCP、AWS）以超大规模方式提供

Cerebras

强大：CS-3 是一个破纪录的强大引擎，拥有 900,000 个 AI 优化核心和 4 万亿个晶体管，能够处理具有多达 24 万亿个参数的 AI 模型。它提供 125 petaflops 的峰值 AI 性能，对于大规模 AI 模型来说非常高效。
能源效率：CS-3 的大规模单芯片设计减少了组件之间的流量需求，从而显着降低了与大规模联网的 GPU 替代方案相比，能耗更低。
可扩展性：Cerebras WSE-3 具有高度可扩展性，能够支持多达 2048 个系统的集群，从而提供高达 256 exaflops 的 AI 计算能力。
战略合作伙伴关系：Cerebras 正在与 LangChain、Docker 和 Weights and Biases 等主要人工智能工具集成，提供支持快速人工智能应用开发的强大生态系统。
云计算访问：目前仅通过 Cerebras Cloud 提供，它提供灵活的按模型或按代币定价。

Groq

功能：Groqs 张量流处理器 (TSP) 专为高吞吐量人工智能推理，重点关注低延迟。虽然以设置高基准而闻名，但它在代币处理速度方面无法与 Cerebras 相媲美。
能源效率：Groqs TSP 针对能源效率进行了优化，声称与 GPU 相比，计算效率提高了 10 倍。
能源效率：Groqs TSP 针对能源效率进行了优化，声称计算效率比 GPU 高出 10 倍。li>
可扩展性：Groqs 架构旨在可扩展，允许添加额外的处理器以提高处理能力。
云计算访问：目前仅通过 Groq Cloud 提供。

企业决策者下一步应该做什么

鉴于人工智能硬件的快速发展，企业决策者应该采取主动的方法来评估他们的选择。虽然 Nvidia 仍然是市场领导者，但 Cerebras 和 Groq 的出现提供了引人注目的替代品。长期以来，Nvidia GPU 一直是人工智能计算的黄金标准，现在它似乎是一种为完成工作而设计的通用工具，而不是为其目的而优化的专用工具。Cerebras CS-3 和 Groq LPU 等专门设计的人工智能芯片可能代表着未来。

以下是企业领导者可以采取的一些步骤，以驾驭这一不断变化的格局：

评估您的 AI 工作负载：确定您当前和计划的 AI 工作负载是否可以受益于 Cerebras 或 Groq 提供的性能优势。如果您的组织严重依赖大语言模型或实时人工智能推理，这些新技术可以带来显着的好处。
评估云和硬件产品：明确定义您的工作负载后，评估以下机构提供的云和硬件解决方案：每个供应商。考虑使用基于云的计算服务、投资本地硬件还是采用混合方法是否最适合您的需求。
评估供应商生态系统：Nvidia GPU 计算可从云提供商处广泛获得，其硬件和软件开发者生态系统非常强大，而 Cerebras 和 Groq 是该领域的新参与者。
保持敏捷性和消息灵通：在决策过程中保持敏捷性，并确保您的团队随时了解最新进展

初创芯片制造商 Cerebras 和 Groq 进入 AI 推理领域，显着改变了游戏规则。他们的 CS-3 和 LPU 等专用芯片的性能优于已成为行业标准的 Nvidia GPU 处理器。随着人工智能推理技术市场的不断发展，企业决策者应不断评估自己的需求和策略。

关于《Cerebras 如何突破 AI 推理的 GPU 瓶颈 - VentureBeat》的评论

暂无评论

发表评论

摘要

加入我们的每日和每周时事通讯，了解有关行业领先人工智能报道的最新更新和独家内容。CS-3 擅长大语言模型；报告表明，Cerebras 芯片每秒可以为 Llama 3.1 8B 模型处理令人瞠目结舌的 1,800 个令牌，远远超过当前基于 GPU 的解决方案。对速度的需求考虑到对人工智能推理的需求，Cerebras 令人印象深刻的统计数据引起业界关注也就不足为奇了。尽管 Cerebras 和 Groq 的性能令人印象深刻，但许多企业决策者可能还没有听说过它们，主要是因为它们是该领域的新进入者，并且仍在扩展其分销渠道，而 Nvidia GPU 可从所有主要云提供商处获得。两家公司的云产品都允许决策者以更低的成本和更大的灵活性试验先进的人工智能推理技术，尽管与英伟达相比，它们的市场份额较小，但上手相对容易。