被英伟达超越，英特尔推出Gaudi 3芯片以用于成本效益高的AI系统

2024-10-17 14:00:00 英文原文

作者：Dylan Martin

在向CRN的演讲和采访中，英特尔高管详细阐述了该公司将如何将其Gaudi 3加速芯片推销给那些需要成本效益高且基于开放生态系统的AI系统的企业。此前，首席执行官帕特·格尔辛格承认，在高端训练领域，英特尔短期内不会与像英伟达这样的竞争对手竞争。

英特尔表示，其针对Gaudi 3加速器芯片的战略不会专注于追赶训练大规模AI模型的市场需求，这种需求似乎源源不断，推动了英伟达GPU的需求，并使这家竞争对手成为世界上最有价值的公司之一，还导致了一类昂贵且耗能的数据中心的诞生。

相反，这家半导体巨头认为其Gaudi 3芯片将吸引那些需要成本效益高的AI系统来训练和推理较小的任务特定模型以及开源模型的企业。

英特尔上个月宣布了其针对Gaudi 3的战略，当时该公司表示这款加速器芯片——这是首席执行官帕特·格尔辛格（Pat Gelsinger）复兴计划中的关键产品——将于10月在戴尔技术和Supermicro的服务器中首次亮相。预计通用可用性将在第四季度晚些时候提供，这比英特尔在今年4月给出的第三季度发布窗口有所推迟。

惠普企业预计将于12月推出其自己的Gaudi 3系统。其他原始设备制造商（包括联想）的系统的可用性未披露。

在云端方面，Gaudi 3将于明年通过IBM Cloud上托管的服务提供，并且更早可以在英特尔Tiber AI云上使用，这是芯片制造商的最近重新品牌化用于支持商业应用的云服务。

在最近的一次新闻活动中，英特尔强调了其关于Gaudi 3的竞争性信息，称它提供了相对于Nvidia于2022年推出的H100 GPU的“性价比优势”，尤其是在推理方面。发挥了重要作用在Nvidia作为数据中心供应商崛起的过程中，今年早些时候被取代的富含内存的H200.

关于80亿参数的Llama 3模型，英特尔的计算显示，Gaudi 3比H100快约9%，但每美元性能提高了80%。对于700亿参数的Llama 2模型，该公司表示，该芯片快约19%，但每美元性能提高了一倍左右。

英特尔此前表示，当用于推理输出为128个令牌的大语言模型（LLM）时，Gaudi 3的能效与H100相当，但当输出增长到1,024个令牌时，它的性能每瓦特更具优势。它还表示，在相同的大量令牌输出下，Gaudi 3的LLM推理吞吐量比H200更快。令牌通常代表单词或字符。

虽然Gaudi 3在这两个大语言模型推理吞吐量测试中超过了H100和H200，但该芯片在16位和8位格式下的浮点运算总体吞吐量仍不及H100的能力。

对于bfloat16（FB16）和8位浮点精度矩阵运算，Gaudi 3每秒可以执行1,835万亿次浮点运算（TFLOPS），而H100在BF16格式下可达到1,979 TFLOPS，在FP8格式下可达到3,958 TFLOPS。

但即使芯片制造商能够宣称在H100或H200上拥有任何优势，英特尔也必须面对这样一个事实，即英伟达已经加速到了一个年度芯片发布节奏这意味着竞争对手计划在今年年底前推出其下一代Blackwell GPU，英伟达承诺这款产品将更强大和高效。

英特尔也面临着另一个已经成为竞争对手的对手。日趋激烈的竞争在AI计算领域：AMD。对立的芯片设计公司上周表示其即将推出的Instinct MI325X GPU在推理工作负载上可以超越Nvidia的H200，并承诺下一代MI350芯片将大幅提高性能。

为什么英特尔认为它可以找到进入人工智能芯片市场的方法

了解了即将面临的挑战，英特尔并不打算在打造用于训练如OpenAI的1.8万亿参数GPT-4专家混合模型等大规模人工智能模型的最快AI系统竞赛中与英伟达的GPU直接竞争。

在与CRN的采访中，英特尔AI加速办公室负责人Anil Nanduri表示，到目前为止，在训练AI模型的基础设施采购决策主要是基于性能而非成本作出的。

这一趋势迄今为止主要有利于英伟达公司，并使其在人工智能开发人员中建立了广泛的支持基础。反过来，开发人员已经在英伟达的全套技术上进行了大量投资以构建他们的应用程序，这提高了切换到其他平台进行开发的门槛。

“如果你从这个角度来看，在现有平台上确实存在一定的优势，所有的前沿模型研究以及所有能力都是在这个事实上被广泛使用的平台上进行开发的。你在构建它、研究它的过程中，实际上也在无意识地对其进行优化。而要将这些成果迁移到另一个平台上去，则需要付出工作。”南杜里说。

至少目前来看，像Meta和微软这样的超大规模公司投资巨额资金建设超强人工智能数据中心以推动尖端能力而不立即需要盈利是有道理的。例如，据CNBC和其他出版物报道，OpenAI预计今年将亏损50亿美元——其中一部分与服务有关——而其收入为36亿美元。报告的上个月。

但许多企业无法承担这样的投资并接受这样的损失。根据Nanduri的说法，他们也不需要能够回答远远超出其关注领域的主题的大型AI模型。

“我们现在开始看到的情况是，人们正在质疑[投资回报率]、成本、权力以及一切其他问题。这让我觉得——我没有水晶球——但我们这么想：你是否想要一个无所不知的巨大模型？”Nanduri说。

英特尔认为对于许多企业来说答案是否定的，并且它们会选择较小的任务型模型，这些模型对性能的需求较低。

南杜里表示，虽然从直接性能对比来看，Gaudi 3“并未赶上”Nvidia最新GPU的水平，但这款加速芯片非常适合用于为企业运行基于任务的模型和开源模型提供经济型系统，在这一点上该公司具有“传统优势”。

“对于我们有着深厚关系的企业来说，它们并不是第一批快速采用人工智能技术的公司。它们实际上非常谨慎地考虑如何部署这些技术。所以我认为正是这种态度推动了我们对产品与市场需求契合度的评估，并且针对的是我们传统上拥有强关系的客户群体，”他说。

贾斯汀·霍塔德一位HPE的老将，今年年初成为英特尔数据中心和人工智能集团领导的人表示，在听取了希望拥有更经济实惠的AI系统的企业的客户需求后，他和其他领导人确定了这一战略，这也有助于形成英特尔认为此类产品可能会有巨大市场的信念。

“我们觉得我们的产品目前处于什么位置，参与的客户群体，我们正在解决的问题，这就是我们的业务领域。赌注是市场会在那个空间开放，会有许多人构建他们自己的推理解决方案，”他在新闻发布会上回答CRN提问时说。

在今年8月的一次金融会议上，格尔辛格承认该公司短期内不会“争夺高端训练市场”，因为其竞争对手“遥遥领先”，因此公司正在押注于与企业和边缘计算相关的AI部署。

“如今，70%的计算是在云端进行的。80%以上的数据仍然保留在本地或由企业控制。当你思考这一点时，这种对比是非常明显的。所以关键的商业数据在这里，而所有关于人工智能的热情却在云端。我想说的是，在过去25年里，这些数据并没有迁移到云上，我认为它们也不会迁移至云端，”他在德意志银行分析师会议上说道。

英特尔押注开源生态系统 approach

英特尔也希望凭借Gaudi 3吸引客户，通过在硬件基础设施、软件平台和应用程序方面采用开放生态系统的方法来实现这一目标。英特尔高管表示，这种方法与英伟达的“封闭花园”策略形成对比。

英特尔数据中心和人工智能集团的产品管理副总裁Saurabh Kulkarni（如图所示）表示，客户和合作伙伴可以选择从配备8个加速器芯片的一套系统开始，一直扩展到一个系统含多个Gaudi 3的配置。1,024节点集群拥有超过8000种芯片，其中有几种不同的配置选项，所有这些都旨在适应不同级别的性能需求。

为了支持硬件生态系统，英特尔通过向原始设备制造商提供参考架构和设计来复制其至强处理器的策略。“这些可以作为蓝本，供我们的客户复制并以模块化的方式构建基础设施，”他说。

这些参考架构将基于一系列开放标准，从以太网和PCIe等连接性标准到分布式存储的DAOS和编程的SYCL，英特尔表示这有助于防止供应商锁定。

当谈到软件时，英特尔高管比尔·皮尔森表示，公司的开放性方法意味着合作伙伴和客户可以从不同供应商那里选择各种工具来满足AI系统的所有软件需求。他将这种方法与英伟达的方法进行了对比，后者创建了许多只能与其自家GPU配合工作的工具。

“我们不会自己创建客户或开发人员可能需要的所有工具，而是依赖我们的生态系统合作伙伴来完成这项工作。我们会与他们合作，并帮助客户选择适合其特定企业的工具，”数据中心和人工智能集团的软件副总裁Pearson说道。

这种开放生态系统软件方法的一个关键方面是开放企业人工智能平台（OPEA），这是一个今年早些时候在Linux基金会下成立的组织，旨在作为可以用于AI系统的微服务的基础。该小组成员包括AMD、英特尔和Rivos等芯片公司以及各种软件提供商，其中包括VMware和红帽等虚拟化提供商以及Domino、Clarifai和英特尔支持的机器学习平台等。Articul8.

当我们考虑如何利用这些微服务来实现解决方案时，每一层堆栈都有多个选择，因此你需要非常具体地确定什么最适合你。你是否有偏好吗？是采购协议吗？是技术偏好吗？还是关系偏好？”皮尔森说道。

“然后客户可以选择适合他们业务的部件、组件和材料。在我看来，我们开放生态系统最好的事情之一就是我们不会直接给出答案。相反，我们会提供工具让你去选择最佳答案。”他补充道。

英特尔软件方法的关键在于针对AI系统采用检索增强生成（RAG），这使得大语言模型能够在不需微调或重新训练这些模型的情况下，对专有企业数据进行查询。

“这最终使组织能够更快速、更经济地定制和启动生成式AI应用程序，”皮尔森说。

为了帮助客户建立基于RAG的AI应用程序，英特尔计划在今年晚些时候推出Intel AI for Enterprise RAG。这是一系列由英特尔及其第三方合作伙伴开发的解决方案目录，预计将在年底前发布。这些解决方案涵盖了从代码生成和代码翻译到内容摘要和问答等多种应用场景。

佩尔森表示，英特尔凭借其自身及其合作伙伴开发的技术处于“独特的位置”，能够应对企业在部署基于RAG的AI基础设施时所面临的挑战。这包括从原始设备制造商处配备Gaudi和Xeon芯片的经过验证的服务器，并涵盖软件优化、向量数据库和嵌入式模型、管理和编排软件、OPEA微服务以及RAG软件。

“所有这些都使得企业客户轻松地实施基于Intel人工智能企业的RAG解决方案。”他说道。

渠道将是Gaudi 3推出的“关键”

在上周接受CRN采访时表示，英特尔美洲销售组织和全球账户的公司副总裁兼总经理Greg Ernst表示，渠道合作伙伴对于将基于Gaudi 3的系统交到客户手中至关重要。

为了达到这一阶段，Ernst表示芯片制造商需要Gaudi 3获得来自服务器供应商的广泛支持，“这样的合作伙伴如World Wide Technology可以真正团结起来支持。”他还补充说，英特尔“与合作伙伴进行了很多关于如何销售产品和实施产品支持的学习。”

“现在我们准备扩大规模了，合作伙伴将在这方面起到关键作用，”他说。

IBM Cloud产品和行业平台的总经理Rohit Badlaney告诉CRN，该公司通过“构建”独立软件供应商(ISV)合作伙伴、增值分销商和全球系统集成商这三种方式，计划主要以Watsonx人工智能平台为中心来销售基于Gaudi 3的云服务。

“我们有一个完整的销售生态系统团队，将专注于构建ISV（独立软件供应商），无论是嵌入我们的watsonx平台还是与之共同开发，就像我们现在在红帽开发者堆栈上所做的努力一样，”他在上个月英特尔的新闻发布会上说。

巴德兰尼表示，IBM Cloud 已经测试了英特尔关于 Gaudi 3“性价比优势”的说法，并对他们所发现的结果印象深刻。

“当我们审视Gaudi 3的能力，特别是对于我们watsonx数据和人工智能平台而言，在成本效益方面它在我们的测试中表现出了明显的优势。因此，我们将首先将其应用于我们自己的品牌模型和其他一些模型的推理场景。”他说道。

戴尔公司企业战略高级副总裁维韦克·莫欣德拉表示，通过将其Gaudi 3纳入PowerEdge XE9680产品组合中，他的公司将为合作伙伴和客户提供一种替代方案，以使用英特尔竞争对手的加速芯片系统。他还补充说，戴尔用于管理高性能计算和人工智能工作负载的Omnia软件与OPEA微服务配合良好，为企业提供了“一键部署新基础设施”的便利。

“它也给了客户一个选择，然后在软件方面，我们的Omnia堆栈与[Intel的]OPEA兼容，这为客户提供了一种巨大的能力，可以相对容易地采用和扩展它，”他在Intel的新闻发布会上说。

International Computer Concepts（总部位于伊利诺伊州北布鲁克的系统集成商）的首席技术官Alexey Stolyar向CRN表示，他的公司已经开始参加有关Gaudi 3的高级培训课程，并且他能够看到需要由此类芯片支持的成本效益型AI系统的必要性，主要是因为训练或微调大型模型所需的电力成本非常高。

你会发现，世界上的许多地方将会把重点放在更小、更高效、更精确的模型上，而不是这些巨大的模型。巨大的模型在处理一般任务时很好用，但在执行特定任务时表现不佳。企业将开始开发他们自己的模型或微调特定的开源模型，但这些模型会更小且更高效。”他说。

斯托利亚尔表示，尽管国际计算机概念公司还没有主动向客户介绍Gaudi 3系统，但已经有一家客户联系了他的公司，开发一个基于Gaudi 3的整机柜解决方案，该客户计划针对特定工作负载销售这款设备，因为芯片在基准测试中表现出色。

然而，解决方案提供商的高管表示，他还不确定Gaudi 3代表了多大的机会，并补充说英特尔的成功将在很大程度上取决于Gaudi 3系统相对于那些由Nvidia芯片和软件驱动的系统的易用性。

“我认为客户想要选择。我认为良好的竞争是好事，但在易用性得到改善之前是不会发生的。Nvidia 在这方面已经做了很长时间了。他们一直在那个生态系统中完善他们的软件包等等。”他说。

一位解决方案提供商的高级领导告诉CRN，他的公司与英特尔代表的交谈给他留下了这样的印象：芯片制造商并不打算用Gaudi 3直接挑战英伟达，而是希望赢得AI市场的“一部分”。

他们已经谈论Gaudi 3很久了：“嘿，这将会是我们的重要产品。我们要展开竞争。”但我想他们也有某种程度的谨慎期待，就像“好吧，让我们在市场的一部分中进行竞争。我们不会直接与英伟达正面交锋，但我们可以在某些方面取得进展，并为客户提供选择。让我们挑选五家客户并去和他们交谈。”这位要求匿名以坦诚讨论其与英特尔工作内容的高管说道。

解决方案提供商的负责人表示，他认为像由Gaudi 3驱动的这样成本效益高的AI系统可能会有市场，因为他从客户那里听说越来越多的人开始关注高昂的AI基础设施成本。

“从某些角度来看，采取这种态度意味着你承认别人已经赢了，但也很合逻辑地说，‘嘿，如果它能做所有这些事情，你不去看一下就是愚蠢的，因为它能帮你省钱、省电以及其他一切。’但这并不是一种想要统治世界的战略，”他说。

关于《被英伟达超越，英特尔推出Gaudi 3芯片以用于成本效益高的AI系统》的评论

暂无评论

发表评论

摘要

在向CRN的演讲和采访中，英特尔高管详细介绍了该芯片制造商将Gaudi 3加速器芯片推向市场的策略，针对那些需要成本效益高且支持开放生态系统的AI系统的企业。此前，在CEO帕特·格尔辛格承认英特尔短期内不会与像英伟达这样的竞争对手争夺高端培训市场之后，英特尔曾表示，当涉及到以128个令牌为输出的大规模语言模型（LLM）的推理时，Gaudi 3的功耗效率可媲美H100，但在输出增长到1,024个令牌的情况下，其每瓦性能更具优势。他在德意志银行分析师会议上说：“在过去的25年里，云中并没有实际的数据迁移，我认为未来也不会发生这样的情况。”皮尔森表示，作为数据中心和人工智能集团的软件副总裁，他们与合作伙伴合作，并帮助客户选择适合其特定企业的方案。IBM Cloud产品和行业平台总经理罗希特·巴德拉内伊告诉CRN，该公司将通过构建独立软件供应商（ISV）合作伙伴、增值分销商以及全球系统集成商这三种方式销售基于Gaudi 3的云服务，这些服务主要围绕watsonx AI平台展开。