随着新版本的人工智能语言模型随着频率的越来越多的速度推出,许多版本的性能提高了。但是,证明新模型实际上比最后一个更好,但对于该领域来说仍然是一个难以捉摸且昂贵的挑战。
通常,为了证明他们的勇气并提高了对新模型确实更好的信任,开发人员将新型号纳入一系列基准问题。可能会存储数十万此类基准问题,并存储在问题库中,答案必须由人类审查,从而增加了时间和成本。实用的约束使得不可能向每个基准问题提出每个模型,因此开发人员选择一个子集,从而引入了基于较柔和的问题高估改进的风险。斯坦福大学的研究人员现在提出了一种经济有效的方式来进行这些评估新论文出版在国际机器学习会议。
我们做出的关键观察是,您还必须考虑难的问题是Sanmi Koyejo,领导研究的工程学院计算机科学助理教授。``有些模型可能会因为抽奖的运气而做得多或更糟。我们试图预料到这一点,并对其进行调整以进行更公平的比较。
合着者补充说,这个评估过程通常比培训本身要多得多。”唱歌,博士候选人斯坦福人工智能实验室(帆)。我们建立了一个基础架构,使我们能够根据难度自适应地选择问题的子集。它是水平的。
苹果和橘子
为了实现他们的目标,Koyejo,Truong和同事从教育中借用了数十年历史的概念,称为项目响应理论,在得分测试者时考虑了问题的困难。Koyejo将其与标准化测试(如SAT和其他类型的自适应测试工作)进行了比较。每个对与错的答案都会改变以下问题。
研究人员使用语言模型来分析问题并在难度上得分,将成本降低了一半,在某些情况下将其降低了80%以上。这种困难得分使研究人员可以比较两个模型的相对性能。
为了以具有成本效益的方式构建一个大型,多样化且精心校准的问题库,研究人员使用AI的生成力量来创建一个可以对任何期望的困难水平进行微调的问题生成器。这有助于自动化问题库的补充,并从数据库中提取受污染的问题。
快速公平
作者说,有了更好设计的问题,该领域的其他人可以通过较小的查询子集进行更好的性能评估。这种方法更快,更公平,更便宜。
从医学和数学到法律,新方法还跨越知识领域。Koyejo已经针对22个数据集和172个语言模型测试了该系统,并发现它可以轻松适应新的模型和问题。他们的方法能够随着时间的流逝而绘制GPT 3.5的安全性的细微变化,一开始会变得更好,然后在2023年测试的几种变体中撤退。语言模型安全是模型对数据操纵,对抗性攻击,剥削,剥削和其他风险的鲁棒性的指标。
如果一旦可靠地评估语言模型是一个昂贵且不一致的前景,那么新的项目响应理论方法将严格,可扩展和自适应评估范围内。对于开发人员而言,这意味着更好的诊断和更准确的性能评估。对于用户而言,这意味着更公平,更透明的模型评估。
Koyejo说,对于其他所有人来说。这将意味着对人工智能快速发展的工具的更快进步和更大的信任。
有关更多信息
斯坦福大学计算机科学副教授Percy Liang也是本文的合着者。其他作者来自加利福尼亚大学,伯克利分校和伊利诺伊大学Urbana-Champaign(UIUC)。UIUC和Koyejo的合着者Bo Li也与美德AI相关。Koyejo还是斯坦福大学Bio-X, 这吴泰人类绩效联盟和吴泰神经科学研究所。
Truong在Virtue AI的实习生中开始了这项工作。这项工作是由麦克阿瑟基金会资助的斯坦福海和Google Inc.