OC

Knowledge OS
鹦鹉螺口语
真正的代理人工智能还需要数年时间 - 以下是我们实现这一目标的原因和方式
2026-01-02 13:13:00 · 英文原文

真正的代理人工智能还需要数年时间 - 以下是我们实现这一目标的原因和方式

作者:Written by

AI concept
Yuichiro Chino/Moment/Getty Images

关注 ZDNET:将我们添加为首选来源在谷歌上。


ZDNET 的主要要点

  • 今天的人工智能代理不符合真正代理的定义。
  • 关键缺失的元素是强化学习和复杂记忆。
  • 人工智能代理至少需要五年的时间才能到达所需的位置。

企业技术巨头——微软、ServiceNow、Salesforce 等——在过去一年半的时间里 推出各种人工智能代理,可以在各自的软件套件中自动执行许多任务的程序。 

另外:人工智能扼杀了云优先策略:为什么混合计算是现在唯一的出路

供应商希望这些代理能够体现他们认为的生成式人工智能的真正承诺:使企业工作更加简化和高效。 

虽然它们可能会带来好处,但这些代理并不是我们真正想要的代理。它们是简单的自动化,并不符合代理的真正定义。因此,企业对代理商的希望在短期内很可能会遭遇惨痛的失望。智能体缺乏关键技术,可能需要另一代人工智能进化才能带来预期的好处。�  

如今人工智能代理的混乱状况 

关键挑战是:我们如何开发大型语言模型(例如 OpenAI 的 GPT 和 Google 的 Gemini),以便在具有广泛目标的长时间跨度内运行;与环境互动,包括工具;不断检索和存储数据;最大的挑战是从头开始制定新的目标和战略。

我们还没有到那儿。我们还差得很远。当今的机器人仅限于聊天交互,并且经常在狭窄的操作环境之外失败。例如,微软在 Microsoft 365 生产力套件中所称的“代理”(可能是最著名的代理实例)只是一种自动生成 Word 文档的方法。 

市场数据显示,代理商尚未腾飞。一项研究 12月发布风险投资公司 Menlo Ventures 透露,人工智能应用增长最快的领域几乎完全由更简单的副驾驶程序组成,例如 ChatGPT Enterprise、Claude for Work 和 Microsoft Copilot,而代理人工智能则包括 Salesforce Agentforce、Writer 和 Glean。

另外:当 Google 和 OpenAI 争夺模型主导地位时,Anthropic 却悄然赢得了企业 AI 竞赛

简单的自动化当然可以带来好处,例如协助呼叫中心操作员或快速处理大量发票。然而,越来越多的学术和技术报告强调了当今代理的局限性,这些代理未能超越这些基本的自动化。 

正如斯坦福大学和纳瓦拉大学 IESE 商学院的研究人员 Gaurav Kumar 和 Anna Rana 在《本月发布的代理概览”,“大型语言模型在推理和规划方面表现出了令人印象深刻的能力,但基于 LLM 的代理在复杂的多步骤规划任务中仍然失败,经常表现出约束违规、状态跟踪不一致以及在微小变化下就会崩溃的脆弱解决方案。”

业界也注意到了这个问题。正如微软商业业务首席执行官 Judson Althoff 本月在华尔街科技会议上所说,“人工智能项目的失败率非常高,高达 80% 以上。”尽管他没有具体提到代理,但尝试实现代理可能是人工智能实现中最棘手的方面之一。 

如今有许多可用的代理工具,但它们并不是答案。产品,例如 Microsoft 的铸造智商让一个公司建立数千个不同种类的代理。这很好,但代理的缺点是该技术在基础层面上固有的,而巧妙的工具无法解决这些缺点。 

另外:微软的新人工智能代理不仅可以帮助我们编码,现在他们还将决定编码什么

微软和其他巨头有大量员工帮助客户建立“代理工作流程”——他们派出“前沿部署工程师”现场团队进行手工操作。这很好,但手握并不能解决基本的技术缺陷。 

等待增援 

在代理能够不辜负微软和其他公司所宣传的“完全自主代码”之前,他们必须克服两个主要的技术缺陷。整个行业正在进行的研究主要集中在以下两个挑战:

  1. 开发强化学习方法来设计代理。
  2. 重新设计人工智能对内存的使用——不仅仅是 DRAM 等内存芯片,而是存储和检索信息的整个现象。

强化学习, 已经存在了几十年,在使人工智能能够在很长的时间范围内执行任务方面取得了惊人的成果。 

最显着的例子是 Google DeepMind 阿尔法零,它能够从头开始制定国际象棋和围棋游戏的规则,然后以等于或优于人类的水平进行整个游戏。这都是强化学习的结果。 

另外:人工智能学者因技术使 AlphaGo 赢得国际象棋胜利而获得图灵奖

强化学习涉及一个人工智能程序,该程序生成对在给定的事态(称为环境)下采取行动所产生的奖励的预测,然后制定行动政策以获得这些奖励。 

强化学习越来越多地被用来改进法学硕士对问题的“推理”,例如DeepSeek 人工智能模型2025 年初震惊了世界。

一些项目正在尝试将强化学习扩展到推理功能之外,以使智能体能够持续活动。

中国科学技术大学程明月及其同事11月揭晓他们称之为 Agent-R1,这是一种通过强化学习来训练法学硕士以预测奖励和制定政策的方法。 

cheng-et-al-2025-agents-versus-automations
中国科学技术大学

Cheng 和团队强调,客服人员必须超越自动化工作流程和简单提示,采取更加自主的方法。

该团队写道:“工作流程依赖于人为设计的路由或规划,而完全自主的代理则消除了预定义的工作流程,并通过端到端的操作反馈周期主动与环境进行交互。”

为了构建能够在不不断提示的情况下执行多项操作的东西,Cheng 和团队必须向 LLM 添加组件,例如协调器。协调器监视代理使用工具时发生的情况,例如通过 API 调用外部程序。然后它会更新环境模型、奖励和策略等内容。

尽管 R1 在“多跳”任务(即具有多个连续任务的任务)上比提示法学硕士表现更好,但程和团队强调,在他们看来,代理人工智能是“一个新兴领域”。 

他们写道:“强化学习在法学硕士代理人中的有效应用仍处于初级阶段,面临着相当大的挑战。”

另一个小组由西湖大学的 Mingyang Sun 领导, 本月推出索菲亚,他们将其描述为一个“包装器”,使法学硕士能够在与网络浏览器交互时在“长时间”内执行任务。 

另外:即使是最好的人工智能代理也会受到该协议的阻碍 - 可以做什么

Sun 和团队强调,Sophia 是一个原型,更多的是如何向法学硕士添加强化学习的概念证明。 

即使在Sun和团队的乐观看法中,今天的法学硕士还远远不是真正的代理人。他们写道:“法学硕士的快速发展已将人工智能代理从特定于任务的工具提升为能够独立规划和战略协作的长期决策实体。”“然而,大多数现有架构仍然是反应性的:它们依赖于手工制作的配置,这些配置在部署后保持静态,专为狭窄的任务或固定场景而设计。”

代理如何自我学习

强化学习本身即将发生重大转变,这可能是一种福音,也可能使事情变得更加复杂。人工智能能否比人类更好地设计强化学习?

google-deepmind-meta-learning-of-agents
谷歌深度思维

这是 AlphaZero 的创建者谷歌 DeepMind 部门在发表的一项研究中提出的问题 这个月自然杂志。一个名为 DiscoRL 的人工智能程序会自动发明改进的强化学习算法,从而产生更好的智能体。 

DiscoRL 方法是一种元学习方法,它观察多个代理的结果,然后细化每个代理制定的预测和策略。因此,它可以使代理适应“完全不同的环境”,这与通常针对给定问题的手工制定的强化学习规则不同。 

另外:企业还没有为恶意人工智能代理的世界做好准备

DeepMind 团队将这种方法称为让代理“自己发现学习算法”。

这可能会通过消除人类设计的强化学习来加速整个强化学习领域的发展,就像 AlphaZero 放弃了国际象棋和围棋的人类例子,而是通过发现游戏规则来掌握游戏一样。

未知的是这种方法的通用性如何。DeepMind 描述了 DiscoRL 智能体如何掌握 Atari 视频游戏(例如吃豆人女士)。但这是以前的强化学习已经被证明有用的领域。这种方法能否从头开始掌握企业客户关系管理或保险索赔处理工作流程?我们还不知道。 

等待真正的记忆 

另一个即将发生的关键技术突破是彻底重新思考代理如何存储和检索数据,广泛称为代理的内存使用。

通过强化学习开发的人工智能代理必须维护环境的历史记录,包括所采取的行动以及代理在总体行动策略中的当前位置——与记忆密切相关的功能。

今天的法学硕士很难在多次对话中保持对话的线索。

任何在大型项目中使用过聊天机器人的人都会注意到错误变得更加频繁,因为机器人有时会错误地插入对话中较早出现的信息。 我自己描述过这种情况当我使用 ChatGPT 几天来制定商业计划时,它开始在计算中插入不正确的变量。 

另外:我与 ChatGPT 制定了一份商业计划,它变成了一个警示故事

当涉及到代理时,研究人员在长期工作中也发现了同样的失败。

斯坦福大学以人为中心的人工智能小组在其年度人工智能现状报告中 4月发表指出,代理人被要求执行的时间越长,他们的能力就落后于人类。“在短时间范围内(两小时预算),顶级人工智能系统的得分比人类专家高出四倍,但随着时间预算的增加,人类的表现超越了人工智能——在 32 小时内得分以二比一超越。”

另外:斯坦福大学学者表示,人工智能模型竞赛突然变得更加接近

在一个本月发布的报告新加坡国立大学及合作机构的主要作者 Yuyang Hu 写道,记忆是减轻此类失败的关键。 

典型的法学硕士仅使用其最新数据,即“上下文窗口”中的数据,例如您在提示中输入的最新信息。

然而,正如他们所说,要成为“能够通过环境交互不断适应的自适应智能体”,智能体需要“从当前任务内和先前完成的任务中的先前交互中获得的附加信息”。

在检索方法上花费了大量的工作,例如检索增强生成(RAG)和矢量数据库。事实上,胡和团队已经组装了一个奇妙的示意图,其中包含代理可以访问的所有类型的内存。值得仔细看看:

hu-et-al-2025-types-of-ai-agent-memory
新加坡国立大学

但光有记忆中的历史是不够的,还需要有足够的历史记录。胡和团队认为,记忆管理本身必须不断发展。他们的论点目前纯粹是理论上的,即随着智能体“学习”如何通过强化学习存储和检索数据,对记忆的整个控制最终将被重新发明。

你可以看到,这有点循环问题:强化学习需要新形式的计算机内存存储和检索才能取得进展,但开发新形式的内存管理本身可能依赖于强化学习。

AGI解决不了这个问题

如此大的步骤不会在一夜之间发生。这不是 DeepMind 或 Microsoft 等单一公司提供新的 LLM 甚至新的 LLM 工具的问题。所需要的是技术的飞跃。

这些问题也不可能很快被通用人工智能(AGI)神奇地解​​决,AGI 是人工智能的传奇巅峰,其中的程序实现了某种形式的智能活动,广义上讲,与人类思维相同。

我们见过的强化学习最伟大的例子 AlphaZero 并不是一个一般智力;这是一个特定的问题解决者。它解决了国际象棋问题,因为国际象棋的规则可以被仔细定义,而且因为它是一种“全信息”游戏,所谓的环境、棋盘和棋子可以被明确而完整地描述。 

企业计费实践、客户服务电话和 IT 故障单管理则并非如此。同样,我们不知道 DiscoRL 方法能否很好地从 Atari 推广到这些更复杂的任务。

结果是:考虑到重新设计强化学习和记忆的复杂性,我们需要等待很长时间。从谷歌2017年最初的突破性LLM Transformer到2022年其后代ChatGPT需要多长时间来判断,乐观估计业界实现可靠代理所需的时间还需要五年。

关于《真正的代理人工智能还需要数年时间 - 以下是我们实现这一目标的原因和方式》的评论

暂无评论

发表评论