随着2025年黎明,Openai首席执行官Sam Altman促进了他坚持认为会改变我们的生活的两个发展。一个当然是GPT-5``一个期待已久的大型语言模型(LLM)的重大升级,该模型将Chatgpt的兴起升为Tech World Superstardom。
另一个?AI代理不仅可以回答您的查询,还可以为您完成工作。“我们相信,在2025年,我们可能会看到第一个AI代理人加入了劳动力,并实质上改变了公司的产出。”写回到一月。
好吧,我们已经八个月了,Altman的预测已经需要一个大的旧星号。当然,公司渴望采用AI代理,例如OpenAI的Chatgpt代理。在2025年5月的报告,咨询巨头PWC发现在今年年底之前,所有接受调查的公司中有一半计划在实施某种AI代理商。大约88%的高管由于AGIC AI而想增加团队的AI预算。
但是,实际的AI代理体验呢?向所有那些有希望的高管道歉,评论几乎是统一的。
如果“ AI代理商”是一部新的高科技詹姆斯·邦德电影,那么这就是您在烂番茄上看到的那种混乱:”故障...不一致“(有线);”像无知的互联网新手一样脱颖而出“(快速公司);”现实不符合炒作“(财富);”不匹配流行语“(彭博),”新的蒸气软件...过度提议比以往任何时候都更糟糕”(福布斯)。
研究发现Openai的条目几乎每次都失败了一个
2025年5月卡内基·梅隆大学研究(PDF)发现Google的Gemini Pro 2.5在70%的时间里,现实世界办公室任务失败了。那就是最好的 - 绩效代理。由GPT 4.O提供支持的OpenAI的入场费超过90%。
GPT-5可能会改善这个数字……但这并不多。不仅是因为早期报告说Openai努力通过足够的改进来填补GPT-5,以使其值得发布编号。
的确,它开始看了像这样的失望的研究人员,都融入了LLMS学习为您做事的整个过程中。问题,这样AI代理工程师的分析清楚,简单的数学:随着时间的推移,错误复合了,因此代理商所做的任务越多,他们得到的就越糟。执行多个复杂任务的AI代理是像所有人工智能一样容易幻觉。
可混合的轻速速度
最后,某些代理人“恐慌”,可以使“判断中的灾难性错误”引用道歉在执行编码任务9天后,恢复AI代理,该代理从字面上删除了客户的数据库。(回复的首席执行官称失败为“不可接受”。)
说的是,那不是唯一的Ai-Agent-wipes代码2025年的故事解释了为什么一个进取的创业公司是在您的AI代理上提供保险,为什么沃尔玛不得不带四个“超级代理商”为了围绕其AI代理。
难怪一个最近的Gartner论文预测,目前由公司发起的所有AI代理中有40%将在2年内被取消。高级分析师Anushree Verma写道:“大多数代理AI项目都是由炒作和误用的驱动的……这可以使组织盲目的组织以大规模部署AI代理的实际成本和复杂性。”
GPT-5对AI代理可以做什么?
一旦由GPT-5供电,ChatGpt代理可能会登顶到可靠性图表的顶部。(同样,这不是最高的障碍。)但是新版本不太可能解决真正使代理世界陷入困境的方法。
这是因为公司和监管机构已经建立了护栏,甚至关闭了最可靠的AI代理商可以为您做的事情。
以亚马逊为例。像大多数科技巨头一样,世界上最大的零售商是在人工智能代理商上谈论大型比赛(如上图所示,他们在7月在上海代理AI博览会上所做的那样)。同时,亚马逊关闭了任何AI代理的能力浏览并在其网站上的任何地方购买。
对于亚马逊来说,这是有道理的,亚马逊一直希望控制客户体验,更不用说其向实际人类眼球提供广告和赞助结果的愿望。但这也削减了那里的大量潜在代理活动。(从好的方面来说,没有“灾难性的失败”,涉及您家门口的大量交货。)
我们是否信任AI代理商可以在线为我们购买?并不是说他们是邪恶的,想窃取您的信用卡数据;这是他们幼稚而容易受到坏演员的保护做想要你的卡。即使是GPT-5也可能无法四处走动
研究人员看到的一个脆弱性:嵌入图像中的数据可以指示AI代理显示他们可能拥有的任何信用卡信息,而用户也不是明智的。如果将这种问题以公司的规模开发,那么Altman可能对AI代理“实质性变化的产出”可能是正确的 - 只是他的意思不是他的意思。
If that kind of problem is exploited on a corporate scale, then Altman may be right about AI Agents "materially changing output" â just not in the way he meant.