作者:Russell Brandom

周三,微软的研究人员发布了一个旨在测试人工智能代理的新模拟环境,同时新的研究表明当前的代理模型可能容易受到操纵。这项研究是与亚利桑那州立大学合作进行的,提出了新的问题:人工智能代理在无人监督的情况下工作表现如何,以及人工智能公司能够以多快的速度兑现代理未来的承诺。
该模拟环境被称为– 神奇的市场 –由 Microsoft 开发,是一个用于试验 AI 代理行为的综合平台。典型的实验可能涉及客户代理尝试根据用户的指令订购晚餐,而代表各个餐馆的代理则竞争以赢得订单。
该团队的初始实验包括 100 个独立的客户端代理与 300 个业务端代理进行交互。由于市场的源代码是开源的,因此其他团体应该可以直接采用该代码来运行新的实验或重现发现。
微软研究院 AI 前沿实验室董事总经理 Ece Kamar 表示,此类研究对于了解 AI 代理的功能至关重要。“确实存在一个问题,即通过让这些代理进行合作、相互交谈和谈判,世界将如何改变,”卡马尔说。“我们想要深入了解这些事情。”
最初的研究考察了多种领先模型,包括 GPT-4o、GPT-5 和 Gemini-2.5-Flash,并发现了一些令人惊讶的弱点。特别是,研究人员发现企业可以使用几种技术来操纵客户代理购买其产品。研究人员注意到,当客户代理有更多的选择可供选择时,效率会出现明显下降,从而压垮了代理的注意力空间。
“我们希望这些代理能够帮助我们处理很多选择,”卡马尔说。“我们发现当前的模型实际上因太多的选择而不知所措。”
当代理人被要求为一个共同目标进行合作时,他们也遇到了麻烦,他们显然不确定哪个代理人应该在合作中扮演什么角色。当模型获得关于如何协作的更明确的指示时,性能得到提高,但研究人员仍然认为模型的固有功能需要改进。
Techcrunch 活动
旧金山 | 2026年10月13-15日
“我们可以指导模型,就像我们可以一步步告诉他们一样,”卡马尔说。– 但如果我们本质上测试他们的协作功能,我希望这些模型默认具有这些功能。 –
Russell Brandom 自 2012 年以来一直关注科技行业,重点关注平台政策和新兴技术。他此前曾在 The Verge 和 Rest of World 工作,并为《Wired》、《Awl》和《麻省理工学院技术评论》撰稿。您可以通过 russell.brandom@techcrunch.com 或拨打 Signal 电话 412-401-5489 联系他。