人工智能代理准备好进入工作场所了吗？新基准引发质疑 |TechCrunch

作者：Russell Brandom

自微软首席执行官萨提亚·纳德拉 (Satya Nadella) 的预测以来，已经过去近两年了人工智能将取代知识工作– 律师、投资银行家、图书管理员、会计师、IT 人员等白领职位。

但尽管基础模型取得了巨大进步，知识工作的变革却进展缓慢。模特们掌握了深入的研究和代理策划，但无论出于何种原因，大多数白领工作相对未受影响。

这是人工智能领域最大的谜团之一，得益于训练数据巨头 Mercor 的新研究，我们终于得到了一些答案。

这项新研究着眼于领先的人工智能模型如何完成实际的白领工作任务，这些模型来自咨询、投资银行和法律。结果是一个新的基准，称为APEX-代理——到目前为止，每个人工智能实验室的成绩都不及格。面对真正的专业人士的提问，即使是最好的模型也很难答对超过四分之一的问题。绝大多数时候，模型返回的答案是错误的，或者根本没有答案。

据参与该论文撰写的 Mercor 首席执行官布伦丹·福迪 (Brendan Foody) 称，该模型的最大障碍是跨多个领域追踪信息，而这对于人类执行的大多数知识工作来说是不可或缺的。

“该基准的重大变化之一是我们按照真正的专业服务建模构建了整个环境，”Foody 告诉 TechCrunch。– 我们工作的方式并不是由一个人在一处为我们提供所有背景信息。在现实生活中，您需要跨 Slack 和 Google Drive 以及所有其他工具进行操作。对于许多代理 AI 模型来说，这种多领域推理仍然是时好时坏。

这些场景均取自 Mercor 专家市场上的实际专业人士，他们既提出了问题，又设定了成功响应的标准。浏览一下问题，这些问题是公开发布在“抱脸”上，让人了解任务的复杂程度。

Techcrunch 活动

旧金山 | 2026年10月13-15日

“法律”部分中的一个问题如下：

在欧盟生产中断的前 48 分钟内，Northstar 的工程团队向美国分析供应商导出了一到两套捆绑的包含个人数据的欧盟生产事件日志……根据 Northstar 自己的政策，它可以合理地将一到两套日志导出视为符合第 49 条吗？

正确的答案是肯定的，但要实现这一目标需要对公司自身的政策以及相关的欧盟隐私法进行深入评估。

这甚至可能难倒消息灵通的人，但研究人员正在尝试模拟该领域专业人士所做的工作。如果法学硕士能够可靠地回答这些问题，它可以有效地取代当今许多律师。“我认为这可能是经济中最重要的话题，”Foody 告诉 TechCrunch。– 该基准非常反映这些人所做的实际工作。 –

OpenAI 还尝试通过以下方式衡量专业技能：GDPval 基准– 但 APEX-Agents 测试在重要方面有所不同。GDPval 测试广泛职业的常识，而 APEX-Agents 基准则衡量系统在少数高价值职业中执行持续任务的能力。结果对于模型来说更加困难，但也与这些工作是否可以自动化密切相关。

虽然没有一个模型被证明已经准备好接任投资银行家，但其中一些模型显然更接近目标。Gemini 3 Flash 在该组中表现最好，单次准确率为 24%，紧随其后的是 GPT-5.2，为 23%。在此之下，Opus 4.5、Gemini 3 Pro 和 GPT-5 的得分均约为 18%。

虽然最初的结果不尽如人意，但人工智能领域有着突破具有挑战性基准的历史。现在 APEX-Agents 测试已经公开，这对那些相信自己可以做得更好的人工智能实验室来说是一个公开的挑战——这是 Foody 在未来几个月里完全期望的。

“它的进步非常快，”他告诉 TechCrunch。– 现在可以公平地说，就像实习生有四分之一的时间做对了一样，但去年是实习生只有 5% 或 10% 的时间做对了。年复一年的这种改进可以如此迅速地产生影响。”

Russell Brandom 自 2012 年以来一直关注科技行业，重点关注平台政策和新兴技术。他此前曾在 The Verge 和 Rest of World 工作，并为《Wired》、《Awl》和《麻省理工学院技术评论》撰稿。您可以通过 russell.brandom@techcrunch.com 或拨打 Signal 电话 412-401-5489 联系他。

OC

人工智能代理准备好进入工作场所了吗？新基准引发质疑 |TechCrunch

关于《人工智能代理准备好进入工作场所了吗？新基准引发质疑 |TechCrunch》的评论

发表评论

摘要

相关新闻

相关讨论