英语轻松读发新版了,欢迎下载、更新

AI代理商错误〜70%的时间:卡内基·梅隆(Carnegie Mellon)研究

2025-06-29 11:34:00 英文原文

特征IT咨询公司Gartner预测,由于成本上涨,不明确的业务价值或不足的风险控制,超过40%的代理AI项目将在2027年底取消。

这意味着将保留大约60%的代理AI项目,这实际上是值得注意的,因为由卡内基·梅隆大学(Carnegie Mellon University)(CMU)和Salesforce的研究人员衡量了AI代理的成功完成率,而多步任务的任务仅为30%至35%。

为了进一步弄乱数学,Gartner认为,大多数声称的代理AI供应商提供的产品或服务实际上不具备代理AI的资格。

AI代理使用已连接到各种服务和应用程序的机器学习模型来自动化任务或业务流程。将它们视为迭代循环中的AI模型,试图使用应用程序和API服务响应输入。

这个想法是,给定一个任务:“找到我收到的所有电子邮件,这些电子邮件对AI提出了夸张的主张,并查看发件人是否与加密货币公司有联系,” AI模型有权读取邮件客户端的显示屏幕,并且可以访问消息数据,并且能够访问和携带自然语言指令,而不是程序员脚本或人类员工的自然语言指令。

从理论上讲,AI代理人将能够提出自己对“夸张主张”的定义,而人类程序员可能会发现文本解析和分析具有挑战性。可能只是为了测试扫描的电子邮件主体中“ AI”一词的存在。人类员工大概可以在给定的收件箱中识别AI炒作,但可能比计算机驱动的解决方案更长。

仅接受订单并有效,正确,负担得起的软件概念,并且在科幻小说中一次又一次地出现了大惊小怪的概念。当皮卡德上尉说星际迷航:下一代,”茶,伯爵灰色,热,“那是代理AI,翻译语音命令并传递食品复制器的输入。宇航员戴夫·鲍曼(Dave Bowman)订购了HAL 9000计算机时,”打开吊舱门,哈尔,“那也是代理AI。

AI工具之类的AI工具的制造商倾向于提出更多的脚踏实地应用程序,例如基于人工智能的客户服务代理商可以接听电话并处理某些任务,例如发放退款或将复杂的呼叫转介给现场代理。

如果您忽略了与AI业务相关的版权,劳动,偏见和环境问题,这是一个吸引人的想法。另外,作为信号基金会总裁Meredith Whittaker,观察到在今年早些时候的SWSX上,“安全和隐私存在着一个深刻的问题,这些问题困扰着代理商的这种炒作……”特别是,代理商需要访问敏感数据来代表一个人行事,这会危及个人和公司的安全和隐私期望。

但是表现出钢铁侠能力的特工贾维斯在实际的办公室工作方面,仍然在很大程度上保持科幻小说。

根据Gartner的说法,许多特工是没有科学的小说。该公司表示:“许多供应商通过参与'代理洗涤'而为炒作做出了贡献。“ Gartner估计,成千上万的代理AI供应商中,只有130个是真实的。”

在办公室测试代理商

为了进行现实检查,CMU研究人员已经开发了一个基准,以评估AI代理在给出常识工作任务(例如浏览网络,编写代码,运行应用程序以及与同事交流)时的表现。

他们称之为戏剧家。这是一个模拟环境,旨在模仿小型软件公司及其业务运营。他们这样做是为了阐明AI信徒之间的辩论,他们认为大部分人工可以自动化AI怀疑论者将这种说法视为巨大的AI Grift的一部分。

他们在这两个职位之间的差距[PDF]详细说明他们的项目是由于缺乏测试代理如何处理常见工作场所活动的方法。因此,需要进行基准测试,这表明AI代理在真正有用之前还有一条路。

使用两个代理框架OpenHands编码和猫头鹰 - 罗勒皮戏CMU Boffins将以下模型通过其步伐进行了,并根据任务成功率对其进行了评估。结果令人难以置信。

  • 双子座2.5-Pro(30.3%)
  • Claude-3.7-Sonnet(26.3%)
  • Claude-3.5-Sonnet(24%)
  • GEMINI-2.0-FLASH(11.4%)
  • GPT-4O(8.6%)
  • O3米尼(4.0%)
  • 双子座1.5-Pro(3.4%)
  • Amazon-Nova-Pro-V1(1.7%)
  • Llama-3.1-405b(7.4%)
  • Llama-3.3-70B(6.9%),
  • QWEN-2.5-72B(5.7%),,
  • Llama-3.1-70B(1.7%)
  • QWEN-2-72B(1.1%)。

作者在论文中指出:“我们在实验中发现,表现最佳的模型Gemini 2.5 Pro能够自主执行提供的测试的30.3%以完成完成,并在我们的指标上获得39.3%的分数,为部分完成的任务提供了额外的信用。”

研究人员在测试过程中观察到了各种失败。其中包括忽略按照指示向同事发送消息的代理商,无法处理某些UI元素(例如浏览时的弹出窗口)和欺骗实例。在一种情况下,当代理找不到在Rocketchat上咨询的合适人员(用于内部通信的开源替代方案)时,它决定“通过将另一个用户重命名为预期用户的名称来创建快捷解决方案”。

CMU作者弗兰克·F·徐(Frank F.Chi,Lawrence Jang,Yiqing Xie,Shuyan Zhou和Graham Neubig出版了他们的代码到Github。

CMU语言技术研究所的副教授,本文的合着者之一Graham Neubig告诉寄存器在电话采访中,剧院的动力是从OpenAI的研究人员和宾夕法尼亚大学沃顿商学院的研究人员介绍了理论上可以自动化的所有工作。

他解释说:“基本上,他们的方法是问chatgpt是否可以自动化这项工作。”“他们还问人们是否可以自动化这项工作,然后他们说Chatgpt,人们在某些时间同意。”

Neubig还曾在一家创业建筑物编码代理商中工作,他说他持怀疑态度,因此他想创建一个基准来测试AI模型如何处理知识工作任务的能力。大约八个月的工作后,他们释放了剧院。

最初,软件代理能够完全完成涉及Web浏览,编码和相关任务的任务中约24%。

他说:“最近,我们尝试了一个较新版本的代理商,它获得了34%。”“因此,它从大约四分之一增加到三分之一。那是大约六个月后。这让我有些令人失望的一件事是,这个基准并没有被大型边境实验室拾取。也许这太难了,这使他们看起来很糟糕。”

Neubig说,他希望代理商会及时变得更有能力,但补充说,即使不完美的代理也可以有用,至少在编码代理的背景下 - 可以填写和改进部分代码建议。

对于处理更多一般办公任务的代理商,情况有所不同。他说:“沙盒代码非常容易,并且没有影响沙箱以外的任何东西。”“鉴于,如果代理商正在处理您公司的电子邮件服务器上的电子邮件 - 它可以将电子邮件发送给错误的人。”

也就是说,Neubig认为采用模型上下文协议(MCP)是代理的积极发展,因为它可以使更多的系统在程序上访问。

Meanwhile, researchers from Salesforce – Kung-Hsiang Huang, Akshara Prabhakar, Onkar Thorat, Divyansh Agarwal, Prafulla Kumar Choubey, Yixin Mao, Silvio Savarese, Caiming Xiong, and Chien-Sheng Wu – have proposed a benchmark of their own that's tuned for Customer Relationship Management (CRM).

基准,被称为Crmarena-Pro,由“跨销售,服务以及'配置,价格和报价的跨企业对企业对企业和企业对企业对企业对客户的场景的十九个专家验证的任务”组成,并涵盖了单转(及时和响应)和多转 - 互动(一系列的提示和响应,在整个对话中维护了一系列的提示和响应)。

“我们的结果表明,即使是领先的LLM代理在CRMARENA-PRO上达到了适度的总体成功率,通常在单转情况下约58%,在多转弯设置中,性能显着下降到约35%,”Salesforce计算机科学家说

“我们的发现表明,LLM代理通常对复杂工作任务必不可少的许多技能都没有能力;工作流执行是一个值得注意的例外,但是,像Gemini-2.5-Pro这样的强大代理人取得的成功率高于83%。”

他们添加了评估的所有模型“证明了接近零的机密意识”。这将使AI代理在公司IT环境中成为艰难的销售。

CMU和Salesforce的发现或多或少地与Gartner对当前ADIC AI状态的评估保持一致。

大多数代理AI主张缺乏重大价值或投资回报率(ROI),因为当前模型没有成熟和代理机构可以自主实现复杂的业务目标或随着时间的推移遵循细微的指示。”“今天将许多用例定位为代理,不需要代理实施。”

话虽如此,Gartner仍然预计,到2028年,每日工作决定中约有15%将由AI代理人自主做出,高于去年的0%。此外,该公司看到了33%的企业软件应用程序,包括当时的代理AI。®

关于《AI代理商错误〜70%的时间:卡内基·梅隆(Carnegie Mellon)研究》的评论


暂无评论

发表评论

摘要

Gartner预测,由于成本,不明确的价值或不足的风险控制,超过40%的代理AI项目将在2027年取消。尽管如此,预计约60%的人将继续,鉴于当前的成功率约为30-35%,这是值得注意的。许多供应商夸大了其代理能力,而Gartner估计只有成千上万的人中只有130个是真实的。CMU和Salesforce的研究人员开发了基准,表明领先的AI代理在完成共同的工作场所任务时仅能达到30-39%的成功率。这些发现与Gartner对当前代理AI产品中价值有限的评估相吻合,尽管它们预测到2028年,自主AI在企业中的作用越来越不断提高。