2026:这就是通用人工智能
作者:Pat Grady and Sonya Huang
几年前,一些领先的研究人员告诉我们,他们的目标是通用人工智能。由于渴望听到一个连贯的定义,我们天真地问“你如何定义 AGI?”。他们停了下来,试探性地互相看了一眼,然后提出了后来成为人工智能领域口头禅的一句话:“好吧,我们每个人都有自己的定义,但当我们看到它时我们就会知道。”
这个小插曲代表了我们对 AGI 具体定义的追求。事实证明它是难以捉摸的。
虽然定义难以捉摸,但现实并非如此。AGI 现在就在这里。
编码剂是第一个例子。还有更多的事情正在路上。
长期智能体在功能上属于 AGI,2026 年将是他们的一年。
幸福地不受细节的束缚
在我们进一步讨论之前,值得承认的是,我们没有道德权威来提出 AGI 的技术定义。
我们是投资者。我们研究市场、创始人及其碰撞:企业。
鉴于此,我们的定义是功能性定义,而不是技术性定义。新技术能力引出了唐·瓦伦丁的问题:那又怎样?
答案在于现实世界的影响。
AGI 的功能定义
AGI 是解决问题的能力。就是这样。*
*我们理解这样一个不精确的定义不会解决任何哲学争论。务实地说,如果你想完成某件事,你想要什么?一个可以解决问题的人工智能。人们更关心它是如何发生的,而不是它发生的事实。
一个能够解决问题的人拥有一些基础知识、对这些知识进行推理的能力以及迭代寻找答案的能力。
能够解决问题的人工智能拥有一些基线知识(预训练)、根据这些知识进行推理的能力(推理时间计算)以及迭代得出答案的能力(长视野代理)。
第一个要素(知识/预训练)推动了 2022 年最初的 ChatGPT 时刻。第二个要素(推理/推理时间计算)随着 2024 年末 o1 的发布而出现。第三个要素(迭代/长视野代理)在过去几周出现,克劳德代码和其他编码代理跨越了能力阈值。
一般来说,聪明的人可以一次自主工作几个小时,犯下并纠正错误,并在没有被告知的情况下弄清楚下一步该做什么。一般来说,智能代理可以做同样的事情。这是新的。
弄清楚事情意味着什么?
一位创始人向他的经纪人发送消息: – 我需要一位开发者关系主管。某人的技术足以赢得高级工程师的尊重,但实际上喜欢在 Twitter 上。我们向平台团队销售。走吧。 –
代理从显而易见的地方开始:LinkedIn 在竞争公司中搜索“Developer Advocate”和“DevRel”——Datadog、Temporal、Langchain。它找到数百个配置文件。但职位名称并不能揭示谁真正擅长于此。
它的重点是通过凭证发出信号。它会在 YouTube 上搜索会议演讲。它会找到 50 多名演讲者,然后筛选出参与度较高的演讲者。
它将这些发言人与 Twitter 进行交叉引用。一半的人拥有不活跃的帐户或只是转发雇主的博客帖子。不是我们想要的。但其中有十几个拥有真正的追随者——他们发布真实的意见、回复人们并获得开发者的参与。他们的帖子很有品味。
代理人的范围进一步缩小。它会检查谁在过去三个月内发帖频率较低。活动减少有时表明他们脱离了当前的角色。三个名字浮出水面。
它研究了这三个。其中一个刚刚宣布了一个新角色——为时已晚。其中一位是一家刚刚筹集资金但没有离开的公司的创始人。第三位是一家 D 轮公司的高级 DevRel,该公司刚刚进行了营销方面的裁员。她的最后一次演讲正是关于初创公司目标的平台工程领域。她在 Twitter 上拥有 14,000 名粉丝,并发布了与实际工程师互动的表情包。她已经两个月没有更新 LinkedIn 了。
该代理人起草了一封电子邮件,确认她最近的谈话、与初创公司 ICP 的重叠,以及关于较小团队提供的创意自由的具体说明。它建议进行随意的交谈,而不是推销。
总时间:31分钟。创始人在招聘网站上列出了一份候选名单,而不是 JD。
这就是把事情弄清楚的意思。克服模糊性来实现目标——形成假设,测试它们,进入死胡同,然后不断调整,直到有结果为止。特工没有遵循剧本。它与优秀招聘人员在头脑中运行的循环相同,只是它在 31 分钟内不知疲倦地完成了这件事,而且没有被告知如何做。
需要明确的是:代理仍然失败。他们产生幻觉,失去背景,有时甚至自信地走上错误的道路。但发展轨迹是明确无误的,而且失败也越来越容易解决。
我们是如何到达这里的?从推理模型到长期智能体
在去年的文章中,我们写道关于推理模型作为人工智能最重要的新领域。长视野代理通过允许模型采取行动并随着时间的推移进行迭代,进一步推动了这一范式。
哄骗模型思考更长时间并非易事。基本推理模型可以思考几秒钟或几分钟。
两种不同的技术方法似乎都有效且可扩展性良好:强化学习和代理利用。前一种方法通过在训练过程中戳戳和刺激模型保持注意力,从本质上教会模型保持在正轨上的时间更长。后者围绕模型的已知局限性(内存切换、压缩等)设计了特定的脚手架。
扩展强化学习是研究实验室的领域。从多代理系统到可靠的工具使用,他们在这方面取得了非凡的进展。
设计出色的代理工具是应用程序层的领域。当今市场上一些最受欢迎的产品以其精心设计的特工安全带而闻名:Manus、Claude Code、Factory’s Droids 等。
如果有一条指数曲线值得押注,那就是长视野智能体的表现。METR一直精心追踪人工智能完成长期任务的能力。进展速度呈指数级增长,每约 7 个月翻一番。如果我们追踪指数,智能体应该能够可靠地工作,以完成到 2028 年需要人类专家一整天、到 2034 年需要一整年、到 2037 年需要整整一个世纪的任务。
那又怎样?
很快您就可以聘请代理人了。这是 AGI 的试金石(h/t:SarahGuo)。
您现在就可以“雇用”GPT-5.2 或 Claude、Grok 或 Gemini。更多示例即将推出:
- 医学:OpenEvidence 的 Deep Consult 发挥专家的作用
- 法律:哈维的代理人作为合伙人
- 网络安全:XBOW 充当渗透测试仪
- DevOps:Traversal 代理充当 SRE
- GTM:日间 AI 充当 BDR、SE 和 Rev Ops 领导者
- 招聘:Juicebox 充当招聘人员
- 数学:Harmonic 的亚里士多德充当数学家
- 半导体设计:Ricursive 的代理商充当芯片设计师
- AI 研究员:GPT-5.2 和 Claude 充当 AI 研究人员
从空谈家到实干家:对创始人的启示
这对创始人有着深远的影响。
2023 年和 2024 年的人工智能应用是谈话者。有些人是非常老练的健谈者!但他们的影响是有限的。
2026年和2027年的人工智能应用将是实干家。他们会感觉像同事。使用将从每天几次变为每天全天,多个实例并行运行。用户不会在这里或那里节省几个小时 - 他们将从 IC 工作转变为管理代理团队。
还记得所有关于出售工作的言论吗?现在这是可能的。
你能完成什么工作?长视野智能体的功能与模型的单个前向传递有很大不同。长期代理在您的域中解锁了哪些新功能?哪些任务需要坚持,而持续注意力是瓶颈?
你将如何将这项工作产品化? 随着工作 UI 从聊天机器人发展到代理委托,您的应用程序界面将如何在您的领域中发展?
你能可靠地完成这项工作吗?您是否正在着迷地改善您的特工装备?你有强大的反馈循环吗?
你怎么能卖掉那件作品? 您能否根据价值和结果进行定价和包装?
鞍上!
是时候让长期代理呈指数增长了。
如今,您的代理可能可以可靠工作大约 30 分钟。但他们很快就能完成一天的工作,并最终完成一个世纪的工作。
当你的计划以几个世纪来衡量时,你能实现什么?一个世纪就是 200,000 项没有人交叉引用的临床试验。一个世纪以来,每一个提交的客户支持请求最终都被挖掘出来以获取信号。一个世纪是整个美国税法的一个世纪,为了一致性而进行了重构。
您的路线图的雄心勃勃的版本刚刚成为现实的版本。
感谢 Dan Roberts、Harrison Chase、Noam Brown、Sholto Douglas、Isa Fulford、Ben Mann、Nick Turley、Phil Duan、Michelle Bailhe 和 Romie Boyd 审阅本文草稿。