作者:Sarah Wang, Shangda Xu, Justin Kahl, Tugce Erten
一年多以前我们强调了16个更改企业接近建筑和购买AI的方式。从那以后,景观继续迅速发展我们重新审视了与二十多名企业买家的对话,并调查了15个行业的100个CIO,以帮助创始人了解这些领导者在2025年及以后如何使用,购买和预算。1一个 即使在唯一常数是变化的领域,AI一代市场结构也已经显着超出了我们的期望,因为我们一年多以前进行了最后一次调查。”
Enterprise AI预算超出了已经很高的预测,并从试点计划和创新资金毕业,以核心IT和业务部门预算重复出现的线条项目。”
为了使创始人更加细微地了解当今的企业买家的最大头脑,我们将在下面的资源,模型,采购和应用程序中进行这些转变。
LLM预算已经超过了一年前的企业(已经很高)的期望,并且没有迹象表明这种放缓的迹象。企业领导者预计明年平均增长约75%。正如一位首席信息官所指出的那样,我现在在2023年花费了一周的时间。
支出增长是由企业部分驱动的,这些企业发现更相关的内部用例并增加了员工的收养。最重要的是,我们开始看到更多面向客户的用例,尤其是对于具有推动指数支出增长的技术前卫公司而言。一家大型技术公司表示,到目前为止,我们主要专注于内部用例,但是今年,我们重点关注的是面向客户的AI,支出将大大增加。”
去年,创新预算仍然构成了四分之一的LLM支出;现在跌至7%。企业越来越多地通过集中的IT和业务部门预算为AI模型和应用程序付费,这反映了越来越多的情绪,即AI不再是实验性的,而是对业务运营至关重要。一位首席技术官指出,我们的更多产品正在增加AI支持,因此我们的支出增长将在所有这些产品中上升,这表明向核心预算的转变只会加速。
现在有几个高功能强大的LLM,它成为生产用例中多个模型的常态。虽然这样做的原因之一是避免供应商锁定,但用用例差异化的模型差异已变得越来越明显,这是企业从多家供应商那里购买模型的主要原因。在今年的调查中,现在有37%的受访者使用5种或更多模型,而去年为29%。
在某些情况下,模型似乎在通用评估上具有可比的分数,但很明显,企业模型层尚未成为商品化。例如,众所周知的是人类模型在与编码相关的任务方面表现出色,但对这一说法还有更多细微差别。在编码中,一些用户报告了Claude在细粒度完成的过程中的表现更好,而Gemini在高级系统设计和体系结构方面更强。In other domains, such as text-based applications, one customer observed that âAnthropic is a bit better at writing tasksâlanguage fluency, content generation, brainstormingâwhile OpenAI models are better for more complex question-answering.â These differences have made it best practice to use multiple models, and we expect this strategy will continue as customers build applications for performance and keep an eye towards remaining vendor agnostic.
尽管企业继续在实验和生产用例中使用不同的模型,但一些参与者领导着整体采用:Openai保持了整体市场份额的领导力,而Google和Anthropic在去年取得了长足的进步。市场份额因企业的规模而有所不同,在较大的企业的较大末端进行了开源的采用,在本地仍是一个主要考虑的企业。”
双击进一步使用:
就像我们一样先前讨论过,模型成本每12个月下降一次。在这种背景下,我们还看到,封闭源的价格与性能比对中小型型号变得更加引人注目,而Xai的Grok 3 Mini和Google的Gemini 2.5 Flash在这一方面均领先。在某些情况下,考虑到这一转变以及其他生态系统益处,客户更频繁地选择封闭的源模型。正如一位客户所说的那样,定价已经吸引人,我们已经与Google融为一体:我们使用从G套房到数据库的所有内容,他们的企业专业知识很有吸引力。
改进的模型功能主要是更高的智能和更长的上下文Windows'使微调对于在特定用例中实现强大的模型性能的关键降低了。相反,公司发现迅速的工程可以以相似或更好的结果推动,通常以更低的成本来推动。正如一个企业所观察到的那样,“您只需将其丢入较长的上下文并获得几乎等效的结果,而不是采取培训数据和参数有效的微调。”
这种远离微调也可以帮助公司避免模型锁定,因为微调的型号需要高度的前期成本和工程工作,而提示可以更轻松地从一种模型移植到另一种模型。这在模型正在迅速改善的世界中很重要,并且公司希望保持领先地位的好处。
也就是说,具有特异性用例的公司仍然是微调模型。例如,一种流媒体服务微型开源模型,用于查询增强视频搜索中 - 您需要更多的域适应性。
通过允许LLMS更准确地完成更复杂的任务,推理模型扩大了LLM可以解决的用例。企业仍在测试推理模型的早期,很少有人将其部署在生产中,但是公司对其潜力非常乐观。我们采访的一位高管对此进行了很好的捕捉:[推理模型]允许我们解决更新,更复杂的用例,因此我预计我们的使用情况会很大。但是我们仍然很早,今天进行了测试。
在早期采用者中,OpenAI的推理模型看到了最大的吸引力。尽管DeepSeek周围有很大的行业嗡嗡声,但企业绝大多数采用了Openai,其中23%的企业已经在生产中使用了Openai S O3模型,而DeepSeek仅为3%。在企业中,DeepSeek的采用率较高。
现在,公司使用纪律处分的评估框架来选择模型,以及在我们的访谈中强调的安全因素,并且成本在整体准确性和可靠性方面取得了基础。这一转变强调了信任企业对模型绩效的增加以及LLMS将大规模部署的信心。正如一位领导者简洁地总结的那样,对于大多数任务,所有模型现在都表现得足够好,因此定价已成为一个更重要的因素。”
正如我们在“模型”部分中提到的那样,企业在将特定用例与正确模型匹配时也变得越来越复杂。对于高度可见或至关重要的应用程序,公司通常更喜欢具有强大品牌认可的领先模型。相比之下,对于简单或内部任务,模型选择通常纯粹是为了成本。这些LLM KPC(密钥购买标准)如何随着时间的推移而变化。
虽然仍然偏爱现有的云关系(类似于其他下属购买),但越来越多的企业直接与模型提供商托管,或者通过数据括号,特别是如果选择模型不是由其主要云提供商托管的情况(例如,为AWS客户开放)。这通常是因为 领导者想要在可用的一旦直接访问具有最佳性能的最新型号。早期访问预览也很重要。与我们在与企业的采访中听到的有关模型提供商的直接信任提高,这是一个重大转变:许多人选择尽可能通过云提供商访问模型,有时即使通过其主要云提供商也没有。一个
去年,我们发现大多数企业都在设计其应用程序,以最大程度地降低切换成本并使模型尽可能互换。结果,许多企业都将模型视为“简单,易于尝试”。代理工作流的兴起已经开始更多的很难在模型之间切换。
随着公司将时间和资源投入到建造护栏并促使代理工作流程中,他们更犹豫要转向其他模型,如果他们的结果将是可复制的,或者他们需要花费大量时间来设计其他模型的可靠性。代理工作流程通常需要多个步骤来完成任务,因此更改模型工作流程的一部分可能会影响所有下游依赖关系。正如一位领导人告诉我们的那样,所有提示都已为Openai调整了。他们每个人都有自己的一套说明,提示和详细信息。LLM如何获得进行代理处理的说明,需要大量的指导。此外,代理商的质量保证并不是一件超级容易的事,因此,改变的模型现在是一项可能需要大量工程时间的任务。
随着模型的繁殖,外部评估提供了一种实用的,类似Gartner的过滤器,企业从其传统的软件采购过程中认识到。一个
尽管内部基准,金数据集和开发人员的反馈仍然是评估LLM性能的关键部分,但LLM市场的成熟使公司促使公司越来越多地参考LM Arena等外部基准。尽管这些外部基准有助于企业买家对市场进行分类,但领导者还指出,这些基准只是更广泛的评估过程中的一个因素:我们绝对看外部基准测试。但是您仍然需要评估自己。很难在没有真正尝试事物并获得员工反馈的情况下选择。
在AI产品周期的早期,企业在很大程度上选择与AI模型直接合作并构建自己的应用程序。然而,随着AI应用程序的生态系统开始成熟,我们看到在过去十二个月内购买了第三方申请的明显转变。这尤其如此,因为模型之间的动态性能和成本差异已导致用例持续评估和优化从不断的评估和优化中获得增长,通常最好由专用的AI应用程序团队而不是内部团队来解决。
此外:在像AI这样充满活力的空间中,公司发现,内部开发的工具很难维护,并且经常不给他们带来业务优势,这进一步巩固了他们对购买而不是建立应用程序的兴趣。”
随着越来越多的应用类别的成熟,我们希望将来看到这种趋势对第三方应用程序更加努力,这是领导者在测试新用例时更严重的领导者的领导指标所证明的。例如,在客户支持的情况下,超过90%的受访者指出,他们正在测试第三方应用程序。一位公共金融科技指出,当他们开始在内部建立客户支持时,最近对市场上的第三方解决方案的评论说服了他们购买而不是继续建造。我们没有看到这种趋势发挥的一个领域是在医疗保健等受监管或高风险行业中,数据隐私和合规性是最重要的。”
尽管围绕AI的基于结果的定价有很多炒作,但CIO仍然对成果指标的设置,测量和计费感到不舒服。”
基于结果的定价的一些主要问题是缺乏明确的成果,这些结果将映射到业务目标,不可预测的成本和归因方面,但是关于供应商如何减轻这些问题尚无共识。这并不令人惊讶,因为AI是一项相对较新的技术,并且尚不清楚如何实施它,因此它为企业带来了真正的价值。买家不知道他们要收取多少费用,也不想让拿着袋子拿着袋子。鉴于此,大多数CIO仍然更喜欢使用AI申请付款。
虽然我们看到逐渐通过董事会逐步采用AI用例,尤其是内部企业搜索,数据分析和客户支持软件开发的采用变化发生了变化,这是由非常高质量的现成应用程序的完美风暴,模型功能的显着增加,与广泛的公司和行业相关的显着提高,以及无需大力投资的ROI用例。一个
一家高增长SaaS公司的一名首席技术官报告称,其代码的近90%现在通过光标和克劳德代码(Claude Code)创建,高于10(Github copilot)的10英寸15%。这种采用水平仍然代表了出血边缘,但可能是企业的主要领先指标。
强大的消费者品牌正在转化为强大的企业需求。
像一些早期平台变化(例如互联网)一样,领先的企业AI应用程序的大部分早期增长都是由Posumer Market推动的。这是由chatgpt启动的,并通过编码应用程序和创建者工具(例如Elevenlabs)突显了这一点。许多CIO指出,他们决定购买企业Chatgpt的决定是由爱Chatgpt的员工驱动的。这是他们知道的品牌名称。这种双重市场的吸引力导致下一代AI公司的增长速度比我们过去所看到的要快得多。
现任者始终从既定的信任和现有分配中受益,但是在AI时代,他们从产品质量和速度的角度来看,他们越来越超过AI-NATIANID竞争对手。
毫不奇怪,买家更喜欢本地供应商的主要原因是他们更快的创新率。第二个原因是认识到,与现有的AI相比,公司从根本上提供了从根本上提供更好的产品,其结果具有优势。
当今的软件开发中,这一差距尤为明显,一家公共安全公司CIO强调了第一代和第二代人工智能编码工具之间的功能差异,因为编码变得更加代理。在用户满意度数据中,这种转变也会回应:采用光标的用户是一种AI代表编码解决方案,显示出对诸如GitHub Copilot(例如Github Copilot)的前一代工具的满意度明显降低,强调了创新的速度从根本上重塑了成果,从而使购买者可以和应对AI的期望进行期望。
企业AI景观不再由实验来定义:它是由战略部署,预算承诺和成熟供应商生态系统所塑造的。随着模型选择的多元化,不仅可以预料,而且拥抱了用例碎片化,而且一些主要的领导者正在出现。企业正在采用结构化的采购过程,并越来越多地转向现成的申请,以加速采用。结果是一个看起来更像传统软件的市场,但以AI独有的速度和复杂性移动。