AI代理被打破。GPT-5真的是答案吗？

随着2025年黎明，Openai首席执行官Sam Altman促进了他坚持认为会改变我们的生活的两个发展。一个当然是GPT-5``一个期待已久的大型语言模型（LLM）的重大升级，该模型将Chatgpt的兴起升为Tech World Superstardom。

另一个？AI代理不仅可以回答您的查询，还可以为您完成工作。“我们相信，在2025年，我们可能会看到第一个AI代理人加入了劳动力，并实质上改变了公司的产出。”写回到一月。

好吧，我们已经八个月了，Altman的预测已经需要一个大的旧星号。当然，公司渴望采用AI代理，例如OpenAI的Chatgpt代理。在2025年5月的报告，咨询巨头PWC发现在今年年底之前，所有接受调查的公司中有一半计划在实施某种AI代理商。大约88％的高管由于AGIC AI而想增加团队的AI预算。

但是，实际的AI代理体验呢？向所有那些有希望的高管道歉，评论几乎是统一的。

如果“ AI代理商”是一部新的高科技詹姆斯·邦德电影，那么这就是您在烂番茄上看到的那种混乱：”故障...不一致“（有线）；”像无知的互联网新手一样脱颖而出“（快速公司）；”现实不符合炒作“（财富）；”不匹配流行语“（彭博），”新的蒸气软件...过度提议比以往任何时候都更糟糕”（福布斯）。

研究发现Openai的条目几乎每次都失败了一个

2025年5月卡内基·梅隆大学研究（PDF）发现Google的Gemini Pro 2.5在70％的时间里，现实世界办公室任务失败了。那就是最好的 - 绩效代理。由GPT 4.O提供支持的OpenAI的入场费超过90％。

GPT-5可能会改善这个数字……但这并不多。不仅是因为早期报告说Openai努力通过足够的改进来填补GPT-5，以使其值得发布编号。

的确，它开始看了像这样的失望的研究人员，都融入了LLMS学习为您做事的整个过程中。问题，这样AI代理工程师的分析清楚，简单的数学：随着时间的推移，错误复合了，因此代理商所做的任务越多，他们得到的就越糟。执行多个复杂任务的AI代理是像所有人工智能一样容易幻觉。

可混合的轻速速度

最后，某些代理人“恐慌”，可以使“判断中的灾难性错误”引用道歉在执行编码任务9天后，恢复AI代理，该代理从字面上删除了客户的数据库。（回复的首席执行官称失败为“不可接受”。）

说的是，那不是唯一的Ai-Agent-wipes代码2025年的故事解释了为什么一个进取的创业公司是在您的AI代理上提供保险，为什么沃尔玛不得不带四个“超级代理商”为了围绕其AI代理。

难怪一个最近的Gartner论文预测，目前由公司发起的所有AI代理中有40％将在2年内被取消。高级分析师Anushree Verma写道：“大多数代理AI项目都是由炒作和误用的驱动的……这可以使组织盲目的组织以大规模部署AI代理的实际成本和复杂性。”

GPT-5对AI代理可以做什么？

一旦由GPT-5供电，ChatGpt代理可能会登顶到可靠性图表的顶部。（同样，这不是最高的障碍。）但是新版本不太可能解决真正使代理世界陷入困境的方法。

这是因为公司和监管机构已经建立了护栏，甚至关闭了最可靠的AI代理商可以为您做的事情。

以亚马逊为例。像大多数科技巨头一样，世界上最大的零售商是在人工智能代理商上谈论大型比赛（如上图所示，他们在7月在上海代理AI博览会上所做的那样）。同时，亚马逊关闭了任何AI代理的能力浏览并在其网站上的任何地方购买。

对于亚马逊来说，这是有道理的，亚马逊一直希望控制客户体验，更不用说其向实际人类眼球提供广告和赞助结果的愿望。但这也削减了那里的大量潜在代理活动。（从好的方面来说，没有“灾难性的失败”，涉及您家门口的大量交货。）

我们是否信任AI代理商可以在线为我们购买？并不是说他们是邪恶的，想窃取您的信用卡数据；这是他们幼稚而容易受到坏演员的保护做想要你的卡。即使是GPT-5也可能无法四处走动

研究人员看到的一个脆弱性：嵌入图像中的数据可以指示AI代理显示他们可能拥有的任何信用卡信息，而用户也不是明智的。如果将这种问题以公司的规模开发，那么Altman可能对AI代理“实质性变化的产出”可能是正确的 - 只是他的意思不是他的意思。

If that kind of problem is exploited on a corporate scale, then Altman may be right about AI Agents "materially changing output" â€” just not in the way he meant.

OC

AI代理被打破。GPT-5真的是答案吗？

研究发现Openai的条目几乎每次都失败了一个

GPT-5对AI代理可以做什么？

关于《AI代理被打破。GPT-5真的是答案吗？》的评论

发表评论

摘要

相关新闻

相关讨论