生成式AI的行为准则第1条

发布于2024年10月9日

代理推理时代开始

经过两年的生成式AI革命，研究正在将该领域从“快速思考”——即迅速生成预训练响应，推进到“慢速思考”——在推理时进行推理。这种演变解锁了一类新的代理应用程序。

在我们论文发表两周年之际：生成式AI：创意新世界”，人工智能生态系统看起来大不相同，我们对未来的趋势有一些预测。

生成式人工智能市场的基础层正在与一组规模化玩家和联盟达成均衡状态，包括微软/OpenAI、亚马逊网络服务/Anthropic、Meta以及谷歌/DeepMind。只有具备经济引擎并能够获得大量资金的规模化玩家仍然在竞争中占据一席之地。虽然这场战斗还远未结束（并且仍在不断升级）博弈论时尚市场结构本身正在巩固，显然我们将会有越来越便宜且充足的下一个令牌预测。

随着大语言模型市场的结构稳定下来，下一个前沿领域正在出现。重点转向了推理层的发展和扩展，在这一层，“系统2”思维占据主导地位。“系统2”思维旨在赋予AI系统在推理时进行有意图的推理、问题解决和认知操作的能力，这些能力超出了快速模式匹配的范畴。受AlphaGo等模型的启发，新的认知架构和用户界面正在塑造这些推理能力如何交付给用户以及与用户交互的方式。

这对人工智能市场的创始人意味着什么？这对现有的软件公司意味着什么？作为投资者，我们在生成式人工智能堆栈中看到最具有前景的回报层在哪里？

在我们最新关于生成式人工智能市场现状的文章中，我们将探讨基础大语言模型层的整合如何为扩大这些高阶推理和代理能力的比赛奠定了基础，并讨论新一代具有新颖认知架构和用户界面的“杀手级应用”。

永远的草莓地

2024年最重要的模型更新属于OpenAI的o1，该模型此前被称为Q*，也称为Strawberry。这不仅再次确认了OpenAI在模型质量排行榜上的领先地位，而且还显著改进了现有的架构。更具体地说，这是第一个具有真正通用推理能力的模型示例，他们通过推断时的计算实现了这一点。

这什么意思？预训练模型在大量数据上进行下一个标记预测。它们依赖于“训练时计算”。规模的涌现属性是基本推理，但这种推理非常有限。如果你能教会一个模型更直接地进行推理会怎么样？这就是草莓项目（Strawberry）所做的事情。当我们说“推理时计算”时，我们的意思是要求模型在给你回复之前停下来思考，这需要更多的推理时计算资源（因此称为“推理时计算”）。这个“停下来思考”的部分就是推理。

AlphaGo x 大型语言模型

当模型停下来思考时，它在做什么？

让我们先回到2016年3月的首尔。这里发生了一个深度学习历史上最具里程碑意义的时刻：AlphaGo与围棋传奇大师李世石的比赛。这不仅仅是一场人工智能对战人类的比赛——这是世界首次见证人工智能能够做超出模仿模式的事情。它是思考.

与之前的围棋AI系统（如Deep Blue）相比，AlphaGo的不同之处在于：像大规模语言模型一样，AlphaGo最初是通过模仿人类专家从大约3000万步的棋局数据库中进行预训练，并且还通过自我对弈获得了更多的数据。但不同于直接提供预训练模型的即时反应，AlphaGo会花时间停下来思考。在推理阶段，该模型会在一系列潜在未来场景上运行搜索或模拟，评估这些场景，并以期望值最高的场景（或答案）作为回应。给AlphaGo更多的时间，它的表现就会越好。如果没有推理时间计算，模型无法击败最好的人类选手。但随着推理时间的增加，AlphaGo的表现越来越好——直到它超越了最优秀的人类棋手。

让我们回到大规模语言模型的世界。在这里复制AlphaGo的难点在于构建价值函数，也就是用于评估回复得分的函数。如果你在下围棋，这相对简单：你可以模拟整个游戏直到结束，看看谁赢了，并计算下一步的预期值。如果你在编写代码，这也比较直接：你可以测试代码是否有效。但是你怎么给一篇文章的第一稿打分？或者一个旅行计划呢？又或者是长篇文档中关键术语的摘要呢？这就是目前的方法难以进行推理的原因，这也是为什么Strawberry在逻辑相关领域（例如编程、数学和科学）相对较强，而在更加开放且无结构化的领域（例如写作）则相对较弱。

尽管Strawberry的实际实现是一个严密保守的秘密，但关键的想法涉及围绕模型生成的思维链进行强化学习。审查模型的思维链表明，正在发生一些根本性且令人兴奋的事情，这实际上类似于人类思考和推理的方式。例如，o1展示了在扩展推理时间时作为涌现属性的回溯能力，当遇到困难时能够返回并重新考虑之前的想法。它还显示出以人类方式思考问题的能力（例如，在解决几何问题时可视化球体上的点），以及用新方法思考问题的能力（例如，在编程竞赛中采用人类不会使用的方法解决问题）。

而且在推动推理计算方面（例如，新的奖励函数计算方法，新的生成器/验证器差距闭合方法）并没有缺乏新想法，研究团队正在努力改进模型的推理能力。换句话说，深度强化学习是再次酷酷的并且它正在启用一个全新的推理层。

系统1与系统2思维

从预训练的本能反应（“系统1”）到更深思熟虑的推理（“系统2”）的跃升是人工智能的下一个前沿领域。模型不仅仅是知道事情，它们还需要暂停、评估并在实时中进行决策推理。

将预训练视为系统1层。无论模型是通过数百万步的围棋（AlphaGo）进行预训练，还是通过海量互联网规模的文本（大语言模型）进行预训练，其任务都是模仿模式——无论是人类对弈模式还是语言模式。但模仿虽然强大，却不是真正的推理。它无法恰当地思考复杂的新情况，特别是那些超出样本范围的情况。

这就是系统2思维发挥作用的地方，也是最新一轮人工智能研究的重点。当一个模型“停下来思考”时，它不仅仅是在生成已学习到的模式或根据过去的数据做出预测。而是在生成多种可能性，考虑潜在的结果，并基于推理作出决策。

对于许多任务来说，系统1已经足够了。正如诺姆·布朗在我们最近的一期节目中指出的那样，训练数据思考不丹的首都是什么并不会帮助你——你知道或者不知道。在这里快速、基于模式的记忆检索工作得非常好。

但是当面对更复杂的问题——比如数学或生物学领域的突破时——快速的直觉反应是不够的。这些进步需要深入思考、创造性解决问题以及最重要的是时间。对于人工智能来说也是如此。为了应对最具挑战性和意义的问题，人工智能将需要超越快速的样本内响应，并花费时间来产生那种定义人类进步的深思熟虑的推理。

新的缩放定律：推理竞赛已经开始

最重要的洞察来自以下内容：O1纸张那是因为在镇上出现了一条新的缩放定律。

预训练大规模语言模型遵循一个被广泛理解的过程缩放定律你用于预训练模型的计算和数据越多，模型的表现就越好。

o1纸为扩展计算开启了一个全新的层面：你给模型的推理时间（或“测试时间”）计算资源越多，它的推理能力就越强。

OpenAI o1技术报告

当模型能够思考数小时？数天？数十年？我们会解决黎曼猜想吗？我们会回答阿西莫夫的最后一个问题吗？

这一转变将把我们从大规模预训练集群的世界转向推理云能够根据任务复杂度动态调整计算资源的环境。

一统天下的模型？

当OpenAI、Anthropic、Google和Meta不断扩大其推理层并开发出越来越强大的推理机器时，我们会拥有一个统御所有模型的超级模型吗？

在生成式人工智能市场的初期，有一种假设认为一家模型公司将变得如此强大和无所不包，以至于会吞噬所有其他应用。到目前为止，这种预测从两个方面是错误的。

首先，在模型层面上存在着激烈的竞争，大家都在不断超越以达到最先进的能力。它就是可能的有人通过广泛领域的自我博弈实现了持续的自我提升并达到了突破，但到目前为止我们没有看到任何证据表明这一点。恰恰相反，模型层的竞争非常激烈，自从上一次开发日以来，GPT-4 的每令牌价格下降了 98%。

其次，这些模型大多未能进入应用层成为突破性产品，唯一的例外是ChatGPT。现实世界很复杂。优秀的研究人员没有兴趣去理解每个可能的功能和垂直领域的每一个细节的端到端工作流程。对他们来说，在API层面停止，并让开发者社群来处理现实世界的复杂性既具有吸引力也合乎经济理性。对应用层来说是个好消息。

混乱的真实世界：自定义认知架构

作为一名科学家计划和实施行动以达到目标的方式与作为一名软件工程师的工作方式大不相同。此外，即使作为软件工程师，在不同的公司工作方式也不同。

随着研究实验室进一步推动横向通用推理的边界，我们仍然需要应用或特定领域的推理来交付有用的AI代理。混乱的真实世界需要大量特定领域和应用的推理，这些无法高效地编码到通用模型中。

输入认知架构或者你的系统是如何思考的：接受用户输入并执行操作或生成响应的代码和模型交互流程。

例如，在Factory的情况下，他们的每个“机器人”产品都有一个自定义的认知架构，模仿人类思考的方式来解决特定任务，如审查拉取请求或编写和执行迁移计划以将服务从一个后端更新到另一个后端。Factory的机器人会分解所有依赖项，提出相关的代码更改，添加单元测试，并引入一个人来进行审核。然后，在获得批准后，它会在开发环境中对所有文件运行这些更改，并在所有测试通过的情况下合并代码。就像人类可能会做的那样——以一系列离散的任务而不是一个通用的黑盒答案来完成。

应用程序的最新动态是什么？

想象你想开始一项与人工智能相关的业务。你想要进入哪一层的产业链？你是想在基础设施层竞争吗？祝你好运，因为你要跟NVIDIA和超大规模云服务提供商抗衡。你是想在模型层面竞争吗？祝你好运，因为你要跟OpenAI和马克·扎克伯格这样的对手竞争。你是想在应用层面竞争吗？祝你好运，因为你要跟企业IT部门和全球系统集成商竞争。哦。等等。这实际上听起来挺可行的！

基础模型很神奇，但也杂乱无章。主流企业无法应对黑箱、幻觉和笨拙的工作流程。消费者面对空白的提示语不知所措。这些是应用层的机会。

两年前，许多应用层公司被嘲笑为“只不过是GPT-3之上的一个外壳。”如今，这些外壳却成为了构建持久价值的少数有效方法之一。最初被称为“外壳”的东西已经进化成了“认知架构”。

应用层人工智能公司不仅仅是在基础模型之上添加用户界面。远非如此。它们拥有复杂且精妙的认知架构，通常包括多个带有某种路由机制的基础模型、用于检索增强生成（RAG）的向量和/或图数据库、保障合规性的护栏以及模仿人类思考方式的应用逻辑。

软件即服务

云端转型是软件即服务。软件公司变成了云服务提供商。这是一个价值3500亿美元的机会。
感谢代理推理，AI转型是软件即服务软件公司把劳动力转化为软件。这意味着可寻址的市场不是软件市场，而是以服务市场衡量的市场的大小。万亿美元。

出售工作意味着什么？Sierra是一个很好的例子。B2C公司会在其网站上使用Sierra与客户交流。要完成的工作是解决客户问题。Sierra根据每次解决问题获得报酬。不存在“席位”的概念。你有一个需要完成的任务，Sierra来完成它，并因此获得相应的报酬。

这对于许多人工智能公司而言是真正的目标。Sierra得益于拥有一个优雅的失败模式（升级到人工代理）。并非所有公司都有这样的好运。一种新兴的趋势是在最初部署时采用辅助模式（人机协作），并利用这些经验获得独立运行的机会（无需人工干预）。GitHub Copilot就是这种做法的一个好例子。

新的一批代理应用程序

随着生成式AI推理能力的发展，一类新的代理应用程序开始出现。

这些应用层公司采取什么样的形态？有趣的是，这些公司的形态与它们的云计算前辈有所不同：

云公司瞄准了软件利润池。人工智能公司则瞄准了服务利润池。
云公司销售软件（$/席位）。AI公司销售工作成果（$/成果）
云公司喜欢从基层做起，采用无摩擦的分发方式。AI公司则越来越多地采取自上而下的方式，采用高接触、高信任的交付模式。

我们看到，在整个知识经济的所有领域，出现了一批新的代理应用程序。这里有一些例子。

哈维：AI律师
Glean：AI工作助手
工厂：AI软件工程师
AI医学记录员
XBOW：AI渗透测试工具
Sierra：AI客户支持代理

通过将提供这些服务的边际成本降低——与推理成本的急剧下降相一致——这些代理应用程序正在扩展并创造新的市场。

以XBOW为例。XBOW正在构建一个AI“渗透测试员”。 “渗透测试”或称为渗透测试，是一种模拟网络攻击的计算机系统安全测试，公司进行此类测试是为了评估自身的安全系统。在生成式人工智能出现之前，公司仅在有限的情况下（例如为了合规）才会雇佣渗透测试人员，因为人工渗透测试成本高昂：它是一项由高技能人才手动执行的任务。然而，XBOW正现在演示中基于最新推理大语言模型的自动化渗透测试，其性能可与最顶尖的人类渗透测试专家相媲美。这将扩大渗透测试市场，并为各种规模的企业开启持续性渗透测试的可能性。

这对SaaS宇宙意味着什么？

今年早些时候我们与我们的有限合伙人会面。他们最关心的问题是“人工智能转型是否会摧毁现有的云公司？”

我们一开始的默认立场是“不”。初创企业和现有企业之间的经典较量，就像是初创企业在构建渠道与现有企业在开发产品之间的赛马。这些年轻公司能否在拥有客户基础的企业开发出酷炫的产品之前，先吸引到一批用户？鉴于人工智能领域的许多神奇之处都来自于基础模型，我们的默认假设是否定的——现有的企业会表现得不错，因为那些基础模型对他们来说和对初创企业的宇宙一样容易获取，并且他们还具有数据和渠道方面的既有优势。对于初创公司而言，主要的机会不是取代现有软件公司——而是瞄准可以自动化的任务池。

说到底，我们不再那么确定了。关于认知架构，请参见上述内容。将模型的原始能力转化为一个令人信服、可靠的端到端商业解决方案需要大量的工程工作。如果我们只是严重低估了“原生AI”的含义会怎样？

二十年前，在本地部署软件公司的高管们对SaaS（软件即服务）嗤之以鼻。“有什么大不了的？我们可以自己运行服务器，也可以通过互联网提供这些服务。”当然，从概念上讲这很简单。但随之而来的是整个商业模式的大规模重塑。EPD（工程产品开发）经历了从瀑布模型和PRDs（产品需求文档）到敏捷开发和A/B测试的变化。GTM（市场进入策略）也从自上而下的企业销售和高档餐饮转变为自下而上的PLG（产品引导增长）和产品分析。商业模式则从高ASP（每个单位价格）和维护流转向了高NDR（净收入留存率）和基于使用量的定价模式。很少有本地部署软件公司成功完成了这种转型。

如果AI是一个类似的转变？AI的机会会不会是两者都出售作品并且替换软件？

通过Day.ai，我们一窥未来。Day是一个原生的AI客户关系管理（CRM）系统。系统集成商每年赚取数十亿美元来配置Salesforce以满足您的需求。仅凭访问您的电子邮件和日历以及回答一份一页的问题调查表，Day就能自动生成一个完全符合您业务需求的CRM系统。它可能还没有所有花哨的功能（暂时没有），但自动创建且无需任何人工输入即可保持最新状态的CRM系统的魔力已经促使人们转向使用它。

投资宇宙

作为投资者，我们把精力集中在哪些领域？资金被部署在什么地方？这是我们快速的分析结果。

基础设施

这是超大规模企业的领域。它由博弈论行为驱动，而不是微观经济学。对风险投资家来说是一个糟糕的地方。

模型

这是超大规模企业和金融投资者的领域。超大规模企业正在用资产负债表换取利润表，投资的资金将以计算收入的形式回流到他们的云业务中。金融投资者则被“惊叹于科学”的偏见所影响。这些模型非常酷，团队也令人印象深刻。微观经济学见鬼去吧！

开发工具和基础设施软件

对战略投资者来说不太有趣，但对风险投资家来说更有趣。在云计算转型期间，这一层级诞生了约15家年收入超过10亿美元的公司，我们怀疑同样的情况也可能出现在人工智能领域。

应用程序

对于风险投资而言最有趣的层面。在云计算转型期间创建了约20家收入超过10亿美元的应用层公司，移动转型期间又创建了大约20家这样的公司，我们怀疑在这里也会是同样的情况。

结束语

在生成式AI的下一个阶段，我们预计推理研究和开发的影响将会迅速而深刻地渗透到应用层面。这些影响是快速且深远的。迄今为止大多数的认知架构都包含了巧妙的“卸掉脚镣这些能力正在更深层次地融入模型本身；因此，我们预计具有代理功能的应用程序将会迅速变得更加复杂和稳健。

回到研究实验室，推理和推断时间的计算将继续在未来一段时间内成为一个重要的主题。现在我们有了一个新的缩放定律，新一轮的竞争已经开始。但是对于任何一个特定领域来说，仍然很难收集真实世界的数据并编码特定领域的认知架构。这再次表明，在解决混乱现实世界中多样化的难题方面，最后-mile应用程序提供商可能拥有优势。

展望未来，像Factory的机器人这样的多智能体系统可能会开始普及，作为模拟推理和社会学习过程的一种方式。一旦我们能够开展工作，就可以组建工人团队来完成更多的任务。

我们所有人翘首以盼的是生成式人工智能的“第37手”，就像AlphaGo在与李世石的第二场比赛中那样，一个通用的人工智能系统会用某种超乎人类的能力给我们带来惊喜，仿佛它有了独立思考的能力。但这并不意味着人工智能“觉醒”了（AlphaGo并没有），而是我们已经模拟出了一些感知、推理和行动的过程，这些过程能够让AI以真正新颖且有用的方式进行探索。这实际上可能是通用人工智能（AGI），而如果真是这样，它将不会是一次性的事件，而只是技术发展的下一个阶段。