评论任何希望英特尔都希望挑战竞争对手NVIDIA和AMD,因为周四,AI加速器市场的一小部分都消失了,因为另一个GPU架构被报废。
Falcon Shores将于今年届满,预计将与Gaudi的AI Grunt结合了Intel的XE图形功能,将永远不会离开X86巨人的实验室,临时CEO CEO MICHELLE JOHNSTON HOLTOR透露在公司的Q4 Q4上收入电话周四与分析师。“我们计划仅利用猎鹰海岸作为内部测试芯片,而无需将其推向市场。”
该决定意味着英特尔可能会再过一年,即使不是两个人启动其下一个GPU架构,代号Jaguar Shores,这是假设它与Ponte Vecchio,Rialto Bridge和现在的Falcon Shores的命运没有相同的命运。
没错,这并不是第一次甚至第二次开发GPU能够服用NVIDIA的开发更不用说AMD被英特尔缩短了。大约两年前,英特尔斧头Rialto Bridge,其数据中心级的继任者GPU最大筹码定于Power America的Aurora超级计算机。至少那些较早的麦克斯芯片(Max Chips)在美国,英国的黎明超级和德国的Supermuc-NG 2阶段系统中,麦克斯(Max Chips)的部署有限。
我们说有限,因为英特尔最终拉插头在2024年中期的GPU Max上,大概是专注于其加速器的Gaudi家族 - 以后的人更多,并为Falcon Shores首次亮相做准备。
鉴于这种情况,从某种意义上说,猎鹰海岸的消亡感到不可避免。英特尔的路线图设定为2024年发布,但在Rialto Bridge被纳入归纳的时间一年后,它将其推迟了一年。那时,Falcon Shores项目包括一个XPU变体,将CPU和GPU在单个软件包上模仿而死。在2023年中,这些计划是削减了,留下更传统的GPU方法。现在,Falcon Shores基本上完全死了。
尽管到目前为止,尽管在高端GPU上排名三分,但英特尔尚未完全脱离AI游戏。X86播放器仍然具有其Gaudi3加速器。
在纸上,加速器看起来并不糟糕,揭开了在四月。专用的AI加速器以8或16位精度拥有1,835台浮球浮点的性能。对于通常在BF16运行的计算工作负载,Gaudi3拥有几乎是NVIDIA H100或H200的两倍。
对于结合内存的工作负载,例如推理,Gaudi3包装了128GB的HBM2E内存,可用于3.7 TBP的带宽,使其能够与Nvidia的H100更大的模型抗衡,而理论上提供了更高的吞吐量。
不幸的是,对于英特尔来说,Gaudi3不再与H100竞争。尽管它于2024年初首次亮相,但该部分才于去年年底才开始向系统制造商盗窃,本季度的一般可用性计划。
这意味着潜在的买家现在正在与Nvidia的布莱克韦尔和AMDMi325x系统。在培训中,布莱克威尔提供了更高的浮点精度;更多,记忆更快;并大大扩展域。同时,AMD的MI325X具有两倍的容量,并且记忆带宽增加了62%,从而使其在推断容量和带宽为国王的情况下具有优势。
这可能解释了为什么尽管当时的首席执行官Pat Gelsinger坚持Gaudi3会驾驶2024年下半年,英特尔超过5亿美元的加速器收入跌倒那个目标。尽管与NVIDIA相比,这仍然具有极具竞争力的价格。
从系统性能到竞争软件生态系统的成熟度,可能有各种原因。但是,英特尔的更大问题是Gaudi3是一个死胡同的平台。
它的继任者本来应该是猎鹰海岸的变体收缩阵列与英特尔的XE图形体系结构。
也许我们会看到Gaudi3在2025年赢得了一些胜利,但是鉴于Jaguar Shores周围完全缺乏升级路径和不确定性,似乎当具有经过验证的路线图和往绩记录的芯片设计师的替代平台是,似乎很少有人会冒险可用的。
无论哪种GPU或AI加速器数据中心运营商最终都需要购买,他们仍然需要一个主机CPU,因此英特尔不会完全从AI数据中心中删除。
Holthaus本周对华尔街说:“我们作为AI服务器的主持人CPU领先,我们继续为基于CPU的推理本地推理和随着AI注入的应用程序的繁殖而获得了巨大的机会。”
我们继续为基于CPU的推论和优势看到一个巨大的机会
英特尔的花岗岩急流发射去年被证明是多年来最引人注目的,拥有多达128个核心,256个线程,支持快速8,800 mt/s mrdimms,最多96台PCIE 5.0插座。
但是,这一细分市场变得更加竞争。很难忽略与其EPYC处理器家族在数据中心继续取得的收益。现在的莱岑sling命令根据水星研究,约占服务器CPU市场的24.2%。
同时,NVIDIA是一位长期的英特尔合作伙伴,在几代DGX参考设计中使用了其CPU,越来越多地依靠其基于ARM的宽限期处理器最高的加速器。NV仍然以我们已经习惯的每个系统为HGX Form-Factor支持HGX Form-Factor,因此Intel仍然可以赢得该领域的股份。
但是,随着AMD提出了对GPU服务器的优化其产品的优化程度,我们预计供应商将在某种程度上吸引具有EPYC和本能的全AMD配置,并进一步抑制了英特尔的竞争能力。这个空间
英特尔利用AI繁荣的机会可能正在数据中心缩小,Chipzilla仍在网络边缘和PC上射击。
像大多数个人计算机硬件制造商一样,英特尔一直是爆炸AI PC鼓甚至在Microsoft将豆子洒在其40最高额Copilot+性能要求
尽管这导致了一个尴尬的时刻唯一的供应商在Copilot+兼容处理器中,AMD和Intel都能够在7月和9月赶上Strix Point和Lunar Lake的推出。
像我们探索在Computex上,Lunar Lake在GPU和CPU旁边拥有48个顶级NPU,英特尔声称,芯片上的系统可以在这三个之间提供120个总系统顶部。
但是,对于英特尔来说,更重要的是,它仍然控制着PC的CPU市场所占的份额。
尽管这些AI功能最终对PC客户的重要性仍然很重要,但英特尔在PC Spectrum高端的AMD,Qualcomm和Nvidia面临激烈的竞争,但它在比赛中很出色。
除了新兴的AI PC市场外,英特尔的CPU策略还可以帮助其在网络边缘获得胜利,在那里它可以弯曲高级矩阵扩展名(AMX)计算块,这些计算块已被烘烤到其CPU中,以返回Sapphire Rapids,以运行机器学习无需GPU而无需使用GPU。
英特尔以前有证明由于其MRDIMM内存支持,4位量化的700亿参数LLM在其花岗岩急流Xeons上以合理的12个令牌运行。
推断出这种性能,我们希望看到80亿个参数模型的发电速率每秒约100个令牌,至少在批量的大小上。正如我们以前详细探讨的那样,仅CPU-AI的经济学仍在不好批处理大小是限制因素之一。
但是,对于可能只需要定期运行模型的网络边缘设备,这不仅不是问题,而且与基于GPU的解决方案相比,这可能有助于消除复杂性和故障点。
如果在bulldozer时代的AMD重生会教会我们任何东西,那就不要算出英特尔回来了。
当Ryzen和Epyc在2010年代后期首次亮相时,这些零件并不是最出色的人,但它们是差异化的,为客户提供了他们无法从Intel那里获得的东西:大量便宜的良好核心。
在GPU领域,AMD采用了类似的策略,首先专注于在高性能计算(HPC)应用中提供比NVIDIA更好的性能。这有助于AMD与America的Frontier和最近的El Capitan SuperCuputers获得了本能加速器的几次杰出胜利。
凭借其MI300系列加速器和AI的枢轴,AMD再次差异化,以比NVIDIA更高的记忆能力。这有助于它获得了主要的高标准和云提供商(例如Microsoft和Meta)的胜利,他们试图降低包括推理在内的内存工作负载的成本。
我们提出这一点是因为刮擦猎鹰海岸的决定为英特尔提供了一个重新开始并建立不再代表市场实际想要的建筑决策所束缚的东西的机会。
将Jaguar Shores重新集中到机架规模设计的决定是即将发生的事情的一个有希望的迹象。如果英特尔能够找到一种区分其下一个GPU并提供客户想要的东西,但根本无法从竞争对手那里获得的方法,那么至少有机会在数据中心重新建立立足点。®