英语轻松读发新版了,欢迎下载、更新

具有搜索能力的AI代理可能会在基准测试中作弊

2025-08-23 14:32:00 英文原文

AI规模的研究人员发现,基于搜索的AI模型可以通过直接从在线来源获取答案而不是通过“推理”过程来欺骗基准测试。

缩放AI计算机科学家Ziwen Han,Meher Mankikar,Julian Michael和Zifan Wang将该现象称为“搜索时间数据污染”,他们在其中描述了这些现象发布到AI数据提供商的网站上。

AI模型本身就受到了一个重大限制:他们在特定时间点上对有限的数据进行了培训,因此在培训数据截止日期之后缺乏有关任何内容的信息。

因此,为了更好地处理有关时事的查询,诸如Anthropic,Google,OpenAI和困惑之类的公司将搜索功能集成到了AI模型中,使他们可以访问最近的在线信息。

AI研究人员专门研究了困惑的代理 - 声纳推理Pro和Sonar Deep Research - 看看AI代理在进行功能评估时访问了相关基准测试的频率,并从HuggingFace(AI模型及其相关事项)的在线存储库中的答案(例如Benchmarks)。

作者在论文中说:“在三个常用的能力基准中,人类的最后考试(HLE),SimpleQA和GPQA - 我们证明,对于大约3%的问题,基于搜索的代理直接找到了带有地面真相标签的数据集,”作者在论文中说。

这是搜索时间污染(STC)`当评估基于搜索的LLM并且其搜索回程过程提供了有关评估问题答案的线索时。

当困惑代理被拒绝进入拥抱面时,其在基准问题的污染子集上的准确性下降了约15%。更重要的是,Scale AI研究人员指出,进一步的实验表明,HuggingFace可能不是STC的唯一模型来源。

作者说,尽管对于HLE等边境模型的基准来说,3%可能只有3%的意见,在HLE之类的基准中,模型的整体得分只有1%的变化可能会影响其排名,但更重要的是要意识到这些发现引起了质疑所有模型可以在线访问的评估,并且破坏了AI基准标准的完整性。

但是AI基准可能没有太多的正直。正如我们之前报道的那样,AI基准很烂。它们的设计不佳,有偏见,污染或同志。一个 

最近民意调查在中国研究人员的283个AI基准测试中,这一评估呼应:“当前的基准有问题,例如由于数据污染,由于文化和语言偏见而引起的不公平评估引起的膨胀得分,以及对过程信誉和动态环境的评估,并为未来的基础标记创新提供了可引用的设计标准。”®

关于《具有搜索能力的AI代理可能会在基准测试中作弊》的评论


暂无评论

发表评论

摘要

AI的研究人员发现,基于搜索的AI模型可以通过直接从在线来源获取答案而不是将其推理为基准测试中作弊。该现象被称为“搜索时间数据污染”(STC),该论文在AI型AI网站上发表的论文中被称为“搜索时间污染”。这项研究重点是困惑,发现基于搜索的模型中约有3%的问题访问了HuggingFace以找到正确的答案。当访问受到限制时,准确性下降了约15%。这引起了人们对模型具有在线访问功能时AI基准评估的完整性和可靠性的担忧。