OC

Knowledge OS
鹦鹉螺口语
2026:这就是通用人工智能
2026-01-14 17:30:21 · 英文原文

2026:这就是通用人工智能

作者:Pat Grady and Sonya Huang

几年前,一些领先的研究人员告诉我们,他们的目标是通用人工智能。由于渴望听到一个连贯的定义,我们天真地问“你如何定义 AGI?”。他们停了下来,试探性地互相看了一眼,然后提出了后来成为人工智能领域口头禅的一句话:“好吧,我们每个人都有自己的定义,但当我们看到它时我们就会知道。”

这个小插曲代表了我们对 AGI 具体定义的追求。事实证明它是难以捉摸的。

虽然定义难以捉摸,但现实并非如此。AGI 现在就在这里。

编码剂是第一个例子。还有更多的事情正在路上。

长期智能体在功能上属于 AGI,2026 年将是他们的一年。

幸福地不受细节的束缚


在我们进一步讨论之前,值得承认的是,我们没有道德权威来提出 AGI 的技术定义。 

我们是投资者。我们研究市场、创始人及其碰撞:企业。

鉴于此,我们的定义是功能性定义,而不是技术性定义。新技术能力引出了唐·瓦伦丁的问题:那又怎样? 

答案在于现实世界的影响。 

AGI 的功能定义


AGI 是解决问题的能力。就是这样。*

*我们理解这样一个不精确的定义不会解决任何哲学争论。务实地说,如果你想完成某件事,你想要什么?一个可以解决问题的人工智能。人们更关心它是如何发生的,而不是它发生的事实。

一个能够解决问题的人拥有一些基础知识、对这些知识进行推理的能力以及迭代寻找答案的能力。 

能够解决问题的人工智能拥有一些基线知识(预训练)、根据这些知识进行推理的能力(推理时间计算)以及迭代得出答案的能力(长视野代理)。

第一个要素(知识/预训练)推动了 2022 年最初的 ChatGPT 时刻。第二个要素(推理/推理时间计算)随着 2024 年末 o1 的发布而出现。第三个要素(迭代/长视野代理)在过去几周出现,克劳德代码和其他编码代理跨越了能力阈值。

一般来说,聪明的人可以一次自主工作几个小时,犯下并纠正错误,并在没有被告知的情况下弄清楚下一步该做什么。一般来说,智能代理可以做同样的事情。这是新的。 

弄清楚事情意味着什么?


一位创始人向他的经纪人发送消息: – 我需要一位开发者关系主管。某人的技术足以赢得高级工程师的尊重,但实际上喜欢在 Twitter 上。我们向平台团队销售。走吧。 –

代理从显而易见的地方开始:LinkedIn 在竞争公司中搜索“Developer Advocate”和“DevRel”——Datadog、Temporal、Langchain。它找到数百个配置文件。但职位名称并不能揭示谁真正擅长于此。

它的重点是通过凭证发出信号。它会在 YouTube 上搜索会议演讲。它会找到 50 多名演讲者,然后筛选出参与度较高的演讲者。

它将这些发言人与 Twitter 进行交叉引用。一半的人拥有不活跃的帐户或只是转发雇主的博客帖子。不是我们想要的。但其中有十几个拥有真正的追随者——他们发布真实的意见、回复人们并获得开发者的参与。他们的帖子很有品味。 

代理人的范围进一步缩小。它会检查谁在过去三个月内发帖频率较低。活动减少有时表明他们脱离了当前的角色。三个名字浮出水面。

它研究了这三个。其中一个刚刚宣布了一个新角色——为时已晚。其中一位是一家刚刚筹集资金但没有离开的公司的创始人。第三位是一家 D 轮公司的高级 DevRel,该公司刚刚进行了营销方面的裁员。她的最后一次演讲正是关于初创公司目标的平台工程领域。她在 Twitter 上拥有 14,000 名粉丝,并发布了与实际工程师互动的表情包。她已经两个月没有更新 LinkedIn 了。

该代理人起草了一封电子邮件,确认她最近的谈话、与初创公司 ICP 的重叠,以及关于较小团队提供的创意自由的具体说明。它建议进行随意的交谈,而不是推销。

总时间:31分钟。创始人在招聘网站上列出了一份候选名单,而不是 JD。

这就是把事情弄清楚的意思。克服模糊性来实现目标——形成假设,测试它们,进入死胡同,然后不断调整,直到有结果为止。特工没有遵循剧本。它与优秀招聘人员在头脑中运行的循环相同,只是它在 31 分钟内不知疲倦地完成了这件事,而且没有被告知如何做。

需要明确的是:代理仍然失败。他们产生幻觉,失去背景,有时甚至自信地走上错误的道路。但发展轨迹是明确无误的,而且失败也越来越容易解决。

我们是如何到达这里的?从推理模型到长期智能体


在去年的文章中,我们写道关于推理模型作为人工智能最重要的新领域。长视野代理通过允许模型采取行动并随着时间的推移进行迭代,进一步推动了这一范式。

哄骗模型思考更长时间并非易事。基本推理模型可以思考几秒钟或几分钟。

两种不同的技术方法似乎都有效且可扩展性良好:强化学习和代理利用。前一种方法通过在训练过程中戳戳和刺激模型保持注意力,从本质上教会模型保持在正轨上的时间更长。后者围绕模型的已知局限性(内存切换、压缩等)设计了特定的脚手架。 

扩展强化学习是研究实验室的领域。从多代理系统到可靠的工具使用,他们在这方面取得了非凡的进展。 

设计出色的代理工具是应用程序层的领域。当今市场上一些最受欢迎的产品以其精心设计的特工安全带而闻名:Manus、Claude Code、Factory’s Droids 等。

如果有一条指数曲线值得押注,那就是长视野智能体的表现。METR一直精心追踪人工智能完成长期任务的能力。进展速度呈指数级增长,每约 7 个月翻一番。如果我们追踪指数,智能体应该能够可靠地工作,以完成到 2028 年需要人类专家一整天、到 2034 年需要一整年、到 2037 年需要整整一个世纪的任务。 

那又怎样?


很快您就可以聘请代理人了。这是 AGI 的试金石(h/t:SarahGuo)。

您现在就可以“雇用”GPT-5.2 或 Claude、Grok 或 Gemini。更多示例即将推出:

  • 医学:OpenEvidence 的 Deep Consult 发挥专家的作用
  • 法律:哈维的代理人作为合伙人
  • 网络安全:XBOW 充当渗透测试仪
  • DevOps:Traversal 代理充当 SRE
  • GTM:日间 AI 充当 BDR、SE 和 Rev Ops 领导者
  • 招聘:Juicebox 充当招聘人员
  • 数学:Harmonic 的亚里士多德充当数学家 
  • 半导体设计:Ricursive 的代理商充当芯片设计师 
  • AI 研究员:GPT-5.2 和 Claude 充当 AI 研究人员 

从空谈家到实干家:对创始人的启示


这对创始人有着深远的影响。 

2023 年和 2024 年的人工智能应用是谈话者。有些人是非常老练的健谈者!但他们的影响是有限的。

2026年和2027年的人工智能应用将是实干家。他们会感觉像同事。使用将从每天几次变为每天全天,多个实例并行运行。用户不会在这里或那里节省几个小时 - 他们将从 IC 工作转变为管理代理团队。 

还记得所有关于出售工作的言论吗?现在这是可能的。 

你能完成什么工作?长视野智能体的功能与模型的单个前向传递有很大不同。长期代理在您的域中解锁了哪些新功能?哪些任务需要坚持,而持续注意力是瓶颈?

你将如何将这项工作产品化? 随着工作 UI 从聊天机器人发展到代理委托,您的应用程序界面将如何在您的领域中发展?

你能可靠地完成这项工作吗?您是否正在着迷地改善您的特工装备?你有强大的反馈循环吗?

你怎么能卖掉那件作品? 您能否根据价值和结果进行定价和包装?

鞍上!


是时候让长期代理呈指数增长了。

如今,您的代理可能可以可靠工作大约 30 分钟。但他们很快就能完成一天的工作,并最终完成一个世纪的工作。

当你的计划以几个世纪来衡量时,你能实现什么?一个世纪就是 200,000 项没有人交叉引用的临床试验。一个世纪以来,每一个提交的客户支持请求最终都被挖掘出来以获取信号。一个世纪是整个美国税法的一个世纪,为了一致性而进行了重构。

您的路线图的雄心勃勃的版本刚刚成为现实的版本。

感谢 Dan Roberts、Harrison Chase、Noam Brown、Sholto Douglas、Isa Fulford、Ben Mann、Nick Turley、Phil Duan、Michelle Bailhe 和 Romie Boyd 审阅本文草稿。

关于《2026:这就是通用人工智能》的评论

暂无评论

发表评论

摘要

研究人员此前曾努力为 AGI(通用人工智能)提供一个连贯的定义,常常诉诸于模糊的说法,即当它出现时他们就会认出它。尽管缺乏具体的定义,AGI 的能力现在以编码代理和能够自主执行复杂任务的长视野代理的形式显而易见。这些代理通过处理模糊性、形成假设、测试假设并迭代直至取得成功的结果来展示一般智能。例如招聘、医疗咨询、网络安全分析、软件工程和研究,这标志着从对话式人工智能到几乎可以不间断运行的实用解决问题工具的转变。AGI 的功能定义是在没有明确指令的情况下独立解决问题的能力,反映了人类智能的知识库、推理能力和迭代细化。更复杂的通用人工智能能力的发展正在加速,长视智能体有望在十年内处理目前人类需要数天甚至数年的任务。创始人和企业必须做出调整,为这些人工智能工具开发强大的接口,提高其可靠性,并寻找创新的方式来销售这项工作的成果。AGI 能力的指数级增长意味着企业现在可以设定更雄心勃勃的目标,以几个世纪而不是几十年来衡量,这有可能改变医药、网络安全和软件开发等行业。