英语轻松读发新版了,欢迎下载、更新

AI代理被打破。GPT-5真的是答案吗?

2025-08-07 09:40:15 英文原文

随着2025年黎明,Openai首席执行官Sam Altman促进了他坚持认为会改变我们的生活的两个发展。一个当然是GPT-5``一个期待已久的大型语言模型(LLM)的重大升级,该模型将Chatgpt的兴起升为Tech World Superstardom。

另一个?AI代理不仅可以回答您的查询,还可以为您完成工作。“我们相信,在2025年,我们可能会看到第一个AI代理人加入了劳动力,并实质上改变了公司的产出。”回到一月。

好吧,我们已经八个月了,Altman的预测已经需要一个大的旧星号。当然,公司渴望采用AI代理,例如OpenAI的Chatgpt代理。在2025年5月的报告,咨询巨头PWC发现在今年年底之前,所有接受调查的公司中有一半计划在实施某种AI代理商。大约88%的高管由于AGIC AI而想增加团队的AI预算。

但是,实际的AI代理体验呢?向所有那些有希望的高管道歉,评论几乎是统一的。

如果“ AI代理商”是一部新的高科技詹姆斯·邦德电影,那么这就是您在烂番茄上看到的那种混乱:”故障...不一致“(有线);”像无知的互联网新手一样脱颖而出“(快速公司);”现实不符合炒作“(财富);”不匹配流行语“(彭博),”新的蒸气软件...过度提议比以往任何时候都更糟糕”(福布斯)。

研究发现Openai的条目几乎每次都失败了一个

2025年5月卡内基·梅隆大学研究(PDF)发现Google的Gemini Pro 2.5在70%的时间里,现实世界办公室任务失败了。那就是最好的 - 绩效代理。由GPT 4.O提供支持的OpenAI的入场费超过90%。

GPT-5可能会改善这个数字……但这并不多。不仅是因为早期报告说Openai努力通过足够的改进来填补GPT-5,以使其值得发布编号

的确,它开始看了像这样的失望的研究人员,都融入了LLMS学习为您做事的整个过程中。问题,这样AI代理工程师的分析清楚,简单的数学:随着时间的推移,错误复合了,因此代理商所做的任务越多,他们得到的就越糟。执行多个复杂任务的AI代理是像所有人工智能一样容易幻觉。

可混合的轻速速度

最后,某些代理人“恐慌”,可以使“判断中的灾难性错误”引用道歉在执行编码任务9天后,恢复AI代理,该代理从字面上删除了客户的数据库。(回复的首席执行官称失败为“不可接受”。)

说的是,那不是唯一的Ai-Agent-wipes代码2025年的故事解释了为什么一个进取的创业公司是在您的AI代理上提供保险,为什么沃尔玛不得不带四个“超级代理商”为了围绕其AI代理。

难怪一个最近的Gartner论文预测,目前由公司发起的所有AI代理中有40%将在2年内被取消。高级分析师Anushree Verma写道:“大多数代理AI项目都是由炒作和误用的驱动的……这可以使组织盲目的组织以大规模部署AI代理的实际成本和复杂性。”

GPT-5对AI代理可以做什么?

一旦由GPT-5供电,ChatGpt代理可能会登顶到可靠性图表的顶部。(同样,这不是最高的障碍。)但是新版本不太可能解决真正使代理世界陷入困境的方法。

这是因为公司和监管机构已经建立了护栏,甚至关闭了最可靠的AI代理商可以为您做的事情。

以亚马逊为例。像大多数科技巨头一样,世界上最大的零售商是在人工智能代理商上谈论大型比赛(如上图所示,他们在7月在上海代理AI博览会上所做的那样)。同时,亚马逊关闭了任何AI代理的能力浏览并在其网站上的任何地方购买。

对于亚马逊来说,这是有道理的,亚马逊一直希望控制客户体验,更不用说其向实际人类眼球提供广告和赞助结果的愿望。但这也削减了那里的大量潜在代理活动。(从好的方面来说,没有“灾难性的失败”,涉及您家门口的大量交货。)

我们是否信任AI代理商可以在线为我们购买?并不是说他们是邪恶的,想窃取您的信用卡数据;这是他们幼稚而容易受到坏演员的保护做想要你的卡。即使是GPT-5也可能无法四处走动

研究人员看到的一个脆弱性:嵌入图像中的数据可以指示AI代理显示他们可能拥有的任何信用卡信息,而用户也不是明智的。如果将这种问题以公司的规模开发,那么Altman可能对AI代理“实质性变化的产出”可能是正确的 - 只是他的意思不是他的意思。

If that kind of problem is exploited on a corporate scale, then Altman may be right about AI Agents "materially changing output" — just not in the way he meant.

关于《AI代理被打破。GPT-5真的是答案吗?》的评论


暂无评论

发表评论

摘要

OpenAI首席执行官Sam Altman在2025年预测,AI代理人将改变生活并按年底加入劳动力,但由于故障,不一致和不可靠性,初步审查大多是负面的。卡内基·梅隆(Carnegie Mellon)的一项研究发现,Google的Gemini Pro 2.5失败了70%的现实世界任务,OpenAI的GPT-4.0超过90%。尽管公司计划实施AI代理,但由于炒作驱动的采用和复杂性,许多人可能会在两年内取消这些项目。监管限制和公司政策还限制了AI代理的能力,从而提出了有关执行复杂任务的可靠性和安全性的问题。