2025-11-05 17:00:00 · 英文原文

微软建立了一个虚假市场来测试人工智能代理——但他们却以令人惊讶的方式失败了TechCrunch

作者：Russell Brandom

图片来源：大卫·莱德/彭博社（PhotoMosh/修改）/盖蒂图片社

太平洋标准时间 2025 年 11 月 5 日上午 9:00

周三，微软的研究人员发布了一个旨在测试人工智能代理的新模拟环境，同时新的研究表明当前的代理模型可能容易受到操纵。这项研究是与亚利桑那州立大学合作进行的，提出了新的问题：人工智能代理在无人监督的情况下工作表现如何，以及人工智能公司能够以多快的速度兑现代理未来的承诺。

该模拟环境被称为– 神奇的市场 –由 Microsoft 开发，是一个用于试验 AI 代理行为的综合平台。典型的实验可能涉及客户代理尝试根据用户的指令订购晚餐，而代表各个餐馆的代理则竞争以赢得订单。

该团队的初始实验包括 100 个独立的客户端代理与 300 个业务端代理进行交互。由于市场的源代码是开源的，因此其他团体应该可以直接采用该代码来运行新的实验或重现发现。

微软研究院 AI 前沿实验室董事总经理 Ece Kamar 表示，此类研究对于了解 AI 代理的功能至关重要。“确实存在一个问题，即通过让这些代理进行合作、相互交谈和谈判，世界将如何改变，”卡马尔说。“我们想要深入了解这些事情。”

最初的研究考察了多种领先模型，包括 GPT-4o、GPT-5 和 Gemini-2.5-Flash，并发现了一些令人惊讶的弱点。特别是，研究人员发现企业可以使用几种技术来操纵客户代理购买其产品。研究人员注意到，当客户代理有更多的选择可供选择时，效率会出现明显下降，从而压垮了代理的注意力空间。

“我们希望这些代理能够帮助我们处理很多选择，”卡马尔说。“我们发现当前的模型实际上因太多的选择而不知所措。”

当代理人被要求为一个共同目标进行合作时，他们也遇到了麻烦，他们显然不确定哪个代理人应该在合作中扮演什么角色。当模型获得关于如何协作的更明确的指示时，性能得到提高，但研究人员仍然认为模型的固有功能需要改进。

Techcrunch 活动

旧金山 | 2026年10月13-15日

“我们可以指导模型，就像我们可以一步步告诉他们一样，”卡马尔说。– 但如果我们本质上测试他们的协作功能，我希望这些模型默认具有这些功能。 –

Russell Brandom 自 2012 年以来一直关注科技行业，重点关注平台政策和新兴技术。他此前曾在 The Verge 和 Rest of World 工作，并为《Wired》、《Awl》和《麻省理工学院技术评论》撰稿。您可以通过 russell.brandom@techcrunch.com 或拨打 Signal 电话 412-401-5489 联系他。

关于《微软建立了一个虚假市场来测试人工智能代理——但他们却以令人惊讶的方式失败了TechCrunch》的评论

暂无评论

OC

微软建立了一个虚假市场来测试人工智能代理——但他们却以令人惊讶的方式失败了TechCrunch

关于《微软建立了一个虚假市场来测试人工智能代理——但他们却以令人惊讶的方式失败了TechCrunch》的评论

发表评论

摘要

相关新闻

相关讨论