预测和解释AI模型性能：一种新的评估方法

在加速基础模型研究（AFMR）Grant计划，来自Microsoft的研究人员和合作机构的研究团队已开发出一种评估AI模型的方法，以预测他们在不熟悉的任务上的执行方式，并解释原因，当前的基准测试基准很难做到。

在纸上一般量表解锁AI评估，并具有解释性和预测能力，他们引入了一种超越总体准确性的方法。它评估任务所需的知识和认知能力，并根据模型的能力进行评估。

阿黛尔：基于能力的任务评估方法

该框架使用Adele（带注释的按需级别），该技术通过对18种类型的认知和基于知识的能力应用测量量表来评估AI模型的要求对AI模型的要求。这个困难评级是基于详细的标题，最初是为人类任务开发的，并在由AI模型应用。

微软研究博客

AIOPSLAB是一个开源框架，旨在评估和改善云操作的AI代理，为现实世界测试提供标准化的可扩展基准，从而增强了云系统的可靠性。

通过比较任务的要求与模型可以执行的操作，Adele生成了一个能力概况这不仅可以预测性能，还可以解释为什么模型可能成功或失败将结果与特定优势或局限性联系起来。

18个量表反映了核心认知能力（例如注意力，推理），知识领域（例如自然科学或社会科学）以及其他与任务相关的因素（例如，互联网上任务的患病率）。每个任务根据给定能力汲取的程度从0到5的额定值。例如，一个简单的数学问题可能会在正式知识上得分1，而需要高级专业知识的人可以得分5。

图1。顶部：对于每个AI模型，（1）在Adele基准上运行新系统，以及（2）提取其能力配置文件。底部：对于每个新任务或基准测试，（a）应用18个标题，（b）获取需求直方图和配置文件，以说明任务所需的能力。可选地，根据系统的需求和能力配置文件或过去的性能数据预测任何系统的新任务性能。

为了开发该系统，团队分析了16,000个示例，这些示例涵盖了63个来自20个AI基准测试的任务，创建了一种统一的测量方法，该方法在各种任务中都可以使用。这纸详细介绍了18个一般量表的评分如何解释模型成功或失败，并预测熟悉和陌生设置中新任务的绩效。

该团队使用阿黛尔（Adele）评估了20个流行的AI基准，并发现了三个关键发现：1）当前的AI基准测试具有测量限制；2）AI模型显示出不同功能的优势和劣势的不同模式；3）Adele提供了对AI系统是在新任务上成功还是失败的准确预测。

1。在AI测试方法中揭示隐藏缺陷一个

许多受欢迎的AI测试要么不衡量其声称的含义，要么仅涵盖有限的难度水平。例如，公务员考试的基准旨在测试逻辑推理，但它也需要其他能力，例如专业知识和元认知。同样，旨在测试时间推理的TimeQA仅包括缺乏简单和复杂的挑战的中等问题。”

2。创建详细的AI能力配置文件一个

使用每种能力的0 -5等级，团队创建了15个LLM的综合能力概况。对于测得的18个能力中的每一种，他们绘制了主题特征曲线，以显示模型的成功率如何随着任务难度而变化。”

然后，他们计算了每个能力的分数，即模型具有成功机会50％的难度水平，并使用这些结果来生成径向图，显示了各个尺度和水平上每个模型的优势和劣势，如图2所示。

该分析揭示了以下内容：

3。预测AI成功和失败一个

除评估外，该团队还基于需求级的测量来创建一个实用的预测系统，以预测模型是否会成功完成特定任务，甚至是陌生的任务。”

该系统在预测诸如GPT-4O和Llama-3.1-405b（例如传统方法）的流行模型的性能方面达到了大约88％的精度。这使得在部署之前可以预测潜在的故障，并为AI模型的可靠性评估添加了重要的步骤。

Adele可以扩展到多模式和体现的AI系统，它有可能作为AI研究，决策和安全审计的标准化框架。

这项技术标志着AI评估的科学迈出的重大一步，该一步既可以清楚地解释系统行为，又提供对性能的可靠预测。它与以前的愿景一致微软位置纸关于将心理计量学应用于AI评估的承诺和最近的社会AI白皮书强调AI评估的重要性。

随着通用AI的进步速度比传统评估方法更快，这项工作为使AI评估更加严格，透明且为现实世界的部署做好了及时的基础。研究团队正在努力建立一个协作社区，以加强和扩大这一新兴领域。