作者:By Caiwei Chenarchive page
到目前为止,我们试图回答这个问题的方式是通过基准测试。这些为模型提供了一组固定的问题,可以回答并对其进行评分,以了解它们正确的数量。但是,就像像SAT一样的考试(许多美国大学使用的录取测试)一样,这些基准也不会反映出更深的能力。最近,感觉好像每周都会有一个新的AI模型下降,每次公司推出该模型时,它都会带有新的分数,表明它超越了前任的能力。在纸上,一切似乎一直都在变得更好。
实际上,这并不是那么简单。就像为SAT磨碎可能会提高您的分数而不会改善您的批判性思维一样,可以培训模型以优化基准结果而不会真正变得更聪明,因为Russell Brandon为我们解释了他的作品。正如Openai和Tesla AI老将Andrej Karpathy最近所说的那样,我们经历了评估危机的生活,我们为AI的计分板不再反映我们真正想要衡量的内容。
基准的陈旧原因有一些关键原因。首先,该行业已经学会了“接受测试,”训练AI模型以得分良好,而不是真正的改进。其次,广泛的数据污染意味着模型可能已经在其培训数据中的某个地方看到了基准问题,甚至是答案。最后,许多基准只是最大化的。在像Superglue这样的流行测试中,模型已经达到或超过90%的精度,使得进一步的收益更像是统计噪音,而不是有意义的改进。那时,分数停止告诉我们任何有用的东西。在高技能领域(例如编码,推理和复杂的STEM解决问题)中尤其如此。
但是,全球越来越多的团队试图解决AI评估危机。”
结果之一是一个名为livecodebench Pro的新基准测试。它从国际算法奥林匹克运动会上为精英高中和大学程序员带来了问题,参与者在没有外部工具的情况下解决了具有挑战性的问题。目前,最高的AI模型在中度缺陷问题上仅管理约53%,最困难的问题仅管理0%。这些是人类专家通常表现出色的任务。
纽约大学的大三学生Zihan Zheng和北美竞争编码的决赛入围者都领导该项目与奥林匹克奖牌获得者团队一起开发Livecodebench Pro。他们发表了基准和一项详细研究,表明诸如GPT O4-Mini-High和Google的双子座2.5的顶级模型的表现与前10%的人类竞争对手相当。Zheng整体上观察了一种模式:AI擅长制定计划和执行任务,但它在细微的算法推理中挣扎。他说,这表明AI与最好的人类编码者还不匹配。
LiveCodeBench Pro可能会定义一个新的上限。但是地板呢?本月初,来自多所大学的一群研究人员争论了LLM代理应主要根据其风险进行评估,而不仅仅是他们的性能。在现实世界中,以应用程序为导向的环境,尤其是在AI代理人的不可靠性,幻觉和脆弱性的情况下是毁灭性的。当金钱或安全在线时,一个错误的举动可能会造成灾难。
还有其他新尝试来解决这个问题。一些基准,例如ARC-AGI,现在将其一部分数据集保留为私有的数据集,以防止AI模型过度优化测试,这是一个称为“过度拟合的问题”。Meta的Yann Lecun创建了LiveBench,这是一个动态的基准,其中问题每六个月就会发展。目的是不仅在知识上,而且根据适应性评估模型。
Xbench是Hongshan Capital Group(以前是红杉中国)开发的中国基准项目,是其中的另一项努力。 我只是在一个故事中写的。Xbench最初建于2022年,在Chatgpt启动后,作为评估投资研究模型的内部工具。随着时间的流逝,团队扩展了系统并引入了外部合作者。它只是在上周公开提供问题的一部分。
Xbench以其双轨设计而闻名,该设计试图弥合基于实验室的测试和现实世界实用程序之间的差距。第一条轨道通过测试模型的知识和进行中文研究的能力来评估技术推理技能。第二条曲目旨在评估模型在招聘和营销等领域的任务方面的执行效果。例如,一项任务要求一个代理商确定五个合格的电池工程师候选人。另一个它的品牌与来自800多家创作者的相关影响者相匹配。
Xbench背后的团队有巨大的野心。他们计划将其测试能力扩展到金融,法律和设计等领域,并计划每季度更新测试集以避免停滞。”
这是我经常想的事情,因为模型的硬核推理能力不一定会转化为一种有趣,信息丰富和创造性的体验。普通用户的大多数查询可能不会是火箭科学。关于如何有效评估模型的创造力,还有很多研究,但我很想知道哪种模型最适合创意写作或艺术项目。
人类偏好测试也已成为基准的替代方法。LMARENA越来越受欢迎,它使用户可以提交问题并并排比较来自不同模型的回答,然后选择他们最喜欢的哪个。尽管如此,这种方法仍然存在缺陷。用户有时会奖励听起来更讨人喜欢或令人愉快的答案,即使这是错误的。这可以激励甜蜜的模型,并偏向倾向于pandering。
AI研究人员开始意识到并承认AI测试的现状无法继续。在最近的CVPR会议上,纽约大学教授对历史学家詹姆斯·卡斯(James Carse)的有限和无限游戏进行了批评,以批评AI研究的过度竞争文化。他指出,无限的游戏是开放式的,目标是继续比赛。但是在AI中,一个主导者通常会取得很大的结果,引发了追逐同一狭窄话题的后续纸。这种竞争到出版的文化给研究人员带来了巨大的压力,并奖励速度超过深度,短期胜利胜过长期见解。如果学术界选择玩有限的游戏,他警告说,这将失去一切。
我发现了他的框架强大,也许也适用于基准。那么,我们是否有一个真正的综合记分牌,以了解模型的良好程度?并不真地。许多方面的社会,情感,跨学科仍在逃避评估。但是新基准测试的浪潮暗示了一个变化。随着领域的发展,一些怀疑可能是健康的。
这个故事最初出现在 算法,我们在AI上的每周新闻通讯。首先在收件箱中获取这样的故事, 在这里注册。
更正:本文的先前版本错误地说4o-mini,而不是Chatgpt O4-Mini-High,作为LiveCodeBench Pro上的最佳表现模型。