作者:By Russell Brandomarchive page
作为硅谷最喜欢的基准之一,这并不容易。
SWE-Bench(发音为“ Swee Bench”)于2024年11月推出,以评估AI Model的编码技能,使用了来自12个不同基于Python的项目的公共GitHub存储库的2,000多个现实世界中的编程问题。
从那以后的几个月中,它迅速成为AI中最受欢迎的测试之一。SWE板凳得分已成为OpenAI,Anthropic和Google和Google和Foundation Models外部发行的主要模型的中流台,AI公司的微型调音者一直在竞争中,以了解谁可以超越包装。排行榜的顶部是在人类的Claude Sonnet模型和亚马逊的Q开发代理商的三个不同的微调之间堆积。自动代码漫游者在11月将Claude修改之一纳入了第二名,并且是获得仅三个月后。
尽管充满了热情,但这并不是对哪种模型更好的真实评估。随着基准的提高,您开始看到人们真的想要那个最高点,”该团队的研究人员约翰·杨(John Yang)说,在普林斯顿大学开发了SWE Bench的研究人员。结果,参赛者已经开始使用该系统进行游戏,这促使许多其他人想知道是否有更好的方法来实际衡量AI成就。
这些编码代理的开发人员一定会做任何事情作为直接作弊的事情,但是他们采用的制作方法对基准的细节过于整齐地量身定制。最初的SWE基础测试集仅限于Python编写的程序,这意味着开发人员可以通过专门在Python代码上培训其模型来获得优势。很快,杨注意到,在对不同的编程语言进行测试时,高分模型将完全失败,揭示了他描述为镀金的测试方法。
Yang说:“乍看之下,它看起来不错又有光泽,但随后您尝试用另一种语言运行它,而整个事情只是崩溃了。”到那时,您不设计软件工程代理。您正在设计制造一个SWE板凳代理,这一点不那么有趣。
SWE板凳问题是AI评估中一个更加笼统和复杂问题的症状,并且越来越激发了激烈的争论:行业用于指导开发的基准越来越远离评估实际能力,将其基本价值提出质疑。使情况变得更糟,几个基准,最著名的是前部和聊天机器人竞技场,最近因涉嫌透明度缺乏透明度而受到高温。然而,即使很少有专家愿意以面值来取得成果,基准仍在模型开发中起着核心作用。Openai联合创始人Andrej Karpathy最近描述的这种情况是一种评估危机:该行业的衡量能力的信任方法较少,没有明确的途径。
从历史上看,基准是我们评估AI系统的方式。这是我们要评估系统的方式吗?如果不是,那是什么?
越来越多的学者和人工智能研究人员正在证明答案是要变小,对社会科学启发的方法进行宽容的野心。具体而言,他们希望更多地专注于测试有效性,这对于定量的社会科学家指的是给定调查表衡量衡量衡量的内容,以及从根本上讲,它的衡量内容是否具有连贯的定义。这可能会导致基准评估诸如推理或科学知识的朦胧定义概念的基准和旨在达到有关的开发人员很多 -炒作人工通用情报的目标,但它将使该行业更加坚定,因为它希望证明单个模型的价值。
``认真对待有效性意味着要问学术界,工业或任何地方的人们表明他们的系统会做他们说的事情。”我认为,如果他们想退出可以支持自己的主张,他们指出了人工智能世界的弱点。”
如果AI公司响应基准越来越缓慢,这部分是因为测试得分的方法在这么长时间内如此有效。
当代AI最大的早期成功之一是Imagenet挑战,这是当代基准的前提。该数据库于2010年发行,作为对研究人员的公开挑战,该数据库拥有超过300万张图像,以使AI系统分为1,000个不同类别。
至关重要的是,该测试对方法完全不可知,无论其工作原理如何,任何成功的算法都会迅速获得信誉。当一种名为Alexnet的算法在2012年破裂,当时是一种非常规的GPU培训形式,它成为现代AI的基本结果之一。很少有人会提前猜测Alexnet的卷积神经网将是解锁图像识别的秘诀,但是在得分良好之后,没有人敢于争议。(Alexnet的开发人员之一,伊利亚·萨斯克弗(Ilya Sutskever),将继续前往Openai。)
使这一挑战如此有效的很大一部分是,Imagenet的对象分类挑战与要求计算机识别图像的实际过程之间几乎没有实际区别。即使关于方法存在争议,也没有人怀疑分数最高的模型在部署在实际图像识别系统中时会有优势。
但是在此后的12年中,AI研究人员已将相同的方法不可屈服的方法应用于越来越多的一般任务。SWE基础通常被用作更广泛的编码能力的代理,而其他考试风格的基准通常具有推理能力。这个广泛的范围使得很难对特定的基准测量措施进行严格严格,这反过来又很难负责任地使用这些发现。”
作为斯坦福大学研究的一部分,一直专注于基准问题的博士生Anka Reuel已确信评估问题是朝着一般性推动的结果。Reuel说:“我们从特定于任务的模型转变为通用模型。”这不再是一个任务,而是一堆任务,因此评估变得更加困难。
就像密歇根大学的雅各布斯(Jacobs)一样,雷尔(Reuel)认为,基准的主要问题是有效性,甚至超过了实际实施,``指出:很多事情都会崩溃。结果,很难衡量模型是否更好,因为它更擅长编码或更有效地操纵问题集。由于开发人员的压力很大,要获得创纪录的得分,捷径很难抵抗。
对于开发人员而言,希望是,许多特定基准的成功将加起来是一个普遍有能力的模型。但是,代理AI的技术意味着单个AI系统可以包含一个复杂的不同模型,因此很难评估对特定任务的改进是否会导致概括。萨什·卡普尔(Sayash Kapoor)说,萨什·卡普尔(Sayash Kapoor)是普林斯顿的计算机科学家,也是人工智能行业马虎实践的著名批评者萨什·卡普尔(Sayash Kapoor)说。``在代理商方面,他们放弃了评估的最佳实践。”
在纸从去年7月开始,卡普尔(Kapoor由卡内基·梅隆大学研究人员设计在2024年,作为AI代理遍历网络的能力的测试。该基准包括在模仿Reddit,Wikipedia等的一组克隆网站上执行的800多个任务。卡普尔(Kapoor)和他的团队在获胜模型中确定了一个明显的黑客,称为step。步骤包括有关Reddit结构URL的特定说明,允许步骤模型直接跳到给定的用户配置文件页(WebArena任务的常见元素)。
这个快捷方式并非完全作弊,但卡普尔认为,如果第一次看到韦伯雷纳(Webarena)的任务,则严重歪曲了代理商的工作状况。(•我们的评估设置旨在评估代理商可以如何解决有关网站结构和任务执行的某些指导的任务的能力。
进一步强调了AI基准,上个月末Kapoor和一组研究人员的问题写一篇论文揭示了聊天机器人竞技场的重大问题,这是受欢迎的人群评估系统。根据该论文,排行榜正在操纵。许多顶级基础模型都在进行未公开的私人测试并选择性地释放其分数。
如今,即使是Imagenet本身,所有基准的母亲也开始成为有效性问题的受害者。一项2023年的研究从华盛顿大学的研究人员和Google Research的研究人员发现,当赢得Imagenet的算法与六个现实世界中的数据集相处时,建筑的改进几乎没有进步,这表明该测试的外部有效性已经达到了极限。
对于那些认为主要问题的人来说,最好的解决方法是将基准重新连接到特定任务。正如Reuel所说的那样,AI开发人员必须诉诸这些对下游消费者几乎毫无意义的高级基准,因为基准开发人员可以预见到下游的任务。
2024年11月,雷埃尔(Reuel)启动了一个公共排名项目更好的替补,这对数十个不同标准的基准进行了评分,例如该代码是否已公开记录。但是有效性是一个核心主题,特定的标准挑战设计师,以阐明他们的基准测试的功能以及与构成基准的任务的关系。
Reuel说,您需要对功能进行结构性崩溃。”您关心的实际技能是什么?
结果令人惊讶。得分最高的基准之一也是最古老的:街机学习环境(ALE),该环境(ALE)于2013年成立,是一种测试模型学习如何玩Atari 2600游戏库的能力的方式。得分最低的是大量的多任务语言理解(MMLU)基准,这是一项广泛使用的通用语言技能测试。按照Better Bench的标准,问题与潜在技能之间的联系太差了。
BetterBench对特定基准的声誉没有很大的意义,至少至少还没有。MMLU仍然被广泛使用,而ALE仍然很边缘。但是该项目成功地将有效性推向了有关如何修复基准的更广泛的对话。4月,雷埃尔悄悄地加入了一个新的研究小组由Hugging Face,Edinburgh大学和Eleutherai主持,在那里她将与该领域的其他人物一起发展有关有效性和AI模型评估的想法。(预计本月晚些时候将进行正式公告。)
拥抱面对全球政策负责人的艾琳·索莱曼(Irene Solaiman)表示,该组织将专注于建立有效的基准测试,这些基准超出了衡量直接能力的范围。索莱曼说:``索拉曼说,已经有了一个渴望从已经有效的架子上的好基准的渴望。”许多评估试图做太多。
越来越多的行业似乎同意。在三月的纸,来自Google,Microsoft,Anthropic和其他人的研究人员为第一步提出了一个新的框架,以改善评估。
研究人员认为,AI评估科学必须超越一般情报的粗糙污染主张,朝着更特定于任务的和现实世界的进步措施。”
为了帮助进行这一转变,一些研究人员正在寻找社会科学的工具。一个2月的职位论文认为评估Genai系统是一项社会科学衡量挑战,特别是解开如何将社会测量中使用的有效性系统应用于AI基准测试。”
作者在很大程度上由微软的研究部门雇用,但由斯坦福大学和密歇根大学的学者加入,指出了社会科学家用来衡量意识形态,民主和媒体偏见等有争议概念的标准。应用于AI基准测试,相同的程序可以提供一种方法来衡量诸如推理和数学水平之类的概念,而无需滑入朦胧的概括。
在社会科学文献中,尤其重要的是,指标是从测试衡量的概念的严格定义开始。例如,如果测试是为了衡量一个社会的民主程度,它首先需要建立一个民主社会的定义,然后建立与该定义相关的问题。”
要将其应用于SWE-Bench之类的基准测试,设计师需要搁置经典的机器学习方法,即从Github收集编程问题,并创建一个方案以验证答案为True或false。取而代之的是,他们首先需要定义基准旨在衡量的目标(例如,解决软件中的标记问题的能力),将其分解为子技能(AI模型可以成功处理的不同类型的问题或程序类型),然后最终组装出准确涵盖不同子机的问题。
这是AI研究人员通常如何对基准进行基准进行基准的深刻变化,但是对于2月份论文的合着者Jacobs等研究人员来说,这是一个重点。她说:“技术行业中发生的事情与社会科学工具之间的不匹配。”我们有数十年和数十年的思考我们要如何衡量这些关于人类的肮脏事物。”
即使这个想法在研究界产生了真正的影响,但影响AI公司实际使用基准的方式的速度也很慢。”
在过去的两个月中,人们看到了OpenAI,Anthropic,Google和Meta的新模型,并且所有模型都大大依靠多项选择知识基准,例如MMLuâmluâ有效性研究人员试图过去的确切方法。毕竟,在大多数情况下,模型版本仍在显示一般情报中的增加,并且继续使用广泛的基准来支持这些主张。”
对于某些观察者来说,这足够好。沃顿商教授伊桑·莫利克(Ethan Mollick)说,基准是对事物的不良措施,但它们也是我们得到的。快速进步宽恕了很多罪过。
目前,该行业对人工通用情报的长期关注似乎正在挤出一种基于有效性的更为集中的方法。只要AI模型可以在一般情报中继续增长,那么即使从业者依靠他们不再完全信任的工具,特定的应用也不会令人信服。”
``这是我们走路的绳索。``将系统淘汰太容易了,但是即使有这些局限性,评估也确实有助于理解我们的模型。
罗素·布兰德(Russell Brandom)是涵盖人工智能的自由作家。他和妻子和两只猫一起住在布鲁克林。
这个故事得到了Tarbell AI新闻中心。