
在加速基础模型研究(AFMR)Grant计划,来自Microsoft的研究人员和合作机构的研究团队已开发出一种评估AI模型的方法,以预测他们在不熟悉的任务上的执行方式,并解释原因,当前的基准测试基准很难做到。
在纸上一般量表解锁AI评估,并具有解释性和预测能力,他们引入了一种超越总体准确性的方法。它评估任务所需的知识和认知能力,并根据模型的能力进行评估。
阿黛尔:基于能力的任务评估方法
该框架使用Adele(带注释的按需级别),该技术通过对18种类型的认知和基于知识的能力应用测量量表来评估AI模型的要求对AI模型的要求。这个困难评级是基于详细的标题,最初是为人类任务开发的,并在由AI模型应用。
通过比较任务的要求与模型可以执行的操作,Adele生成了一个能力概况这不仅可以预测性能,还可以解释为什么模型可能成功或失败将结果与特定优势或局限性联系起来。
18个量表反映了核心认知能力(例如注意力,推理),知识领域(例如自然科学或社会科学)以及其他与任务相关的因素(例如,互联网上任务的患病率)。每个任务根据给定能力汲取的程度从0到5的额定值。例如,一个简单的数学问题可能会在正式知识上得分1,而需要高级专业知识的人可以得分5。

为了开发该系统,团队分析了16,000个示例,这些示例涵盖了63个来自20个AI基准测试的任务,创建了一种统一的测量方法,该方法在各种任务中都可以使用。这纸详细介绍了18个一般量表的评分如何解释模型成功或失败,并预测熟悉和陌生设置中新任务的绩效。
评估结果
该团队使用阿黛尔(Adele)评估了20个流行的AI基准,并发现了三个关键发现:1)当前的AI基准测试具有测量限制;2)AI模型显示出不同功能的优势和劣势的不同模式;3)Adele提供了对AI系统是在新任务上成功还是失败的准确预测。
1。在AI测试方法中揭示隐藏缺陷一个
许多受欢迎的AI测试要么不衡量其声称的含义,要么仅涵盖有限的难度水平。例如,公务员考试的基准旨在测试逻辑推理,但它也需要其他能力,例如专业知识和元认知。同样,旨在测试时间推理的TimeQA仅包括缺乏简单和复杂的挑战的中等问题。”
2。创建详细的AI能力配置文件一个
使用每种能力的0 -5等级,团队创建了15个LLM的综合能力概况。对于测得的18个能力中的每一种,他们绘制了主题特征曲线,以显示模型的成功率如何随着任务难度而变化。”
然后,他们计算了每个能力的分数,即模型具有成功机会50%的难度水平,并使用这些结果来生成径向图,显示了各个尺度和水平上每个模型的优势和劣势,如图2所示。

该分析揭示了以下内容:
- 当针对人类绩效进行衡量时,AI系统在18个能力尺度上显示出不同的优势和劣势。
- 较新的LLM通常胜过较旧的LL,尽管在所有能力方面都不一致。
- 与知识相关的表现在很大程度上取决于模型规模和训练方法。
- 推理模型在逻辑思维,学习和抽象以及社交能力(例如推断用户的心理状态)中对非争议模型的收益明显。”
- 在给定阈值后,增加通用模型的大小只会导致性能较小。
3。预测AI成功和失败一个
除评估外,该团队还基于需求级的测量来创建一个实用的预测系统,以预测模型是否会成功完成特定任务,甚至是陌生的任务。”
该系统在预测诸如GPT-4O和Llama-3.1-405b(例如传统方法)的流行模型的性能方面达到了大约88%的精度。这使得在部署之前可以预测潜在的故障,并为AI模型的可靠性评估添加了重要的步骤。
展望未来
Adele可以扩展到多模式和体现的AI系统,它有可能作为AI研究,决策和安全审计的标准化框架。
这项技术标志着AI评估的科学迈出的重大一步,该一步既可以清楚地解释系统行为,又提供对性能的可靠预测。它与以前的愿景一致微软位置纸关于将心理计量学应用于AI评估的承诺和最近的社会AI白皮书强调AI评估的重要性。
随着通用AI的进步速度比传统评估方法更快,这项工作为使AI评估更加严格,透明且为现实世界的部署做好了及时的基础。研究团队正在努力建立一个协作社区,以加强和扩大这一新兴领域。