英语轻松读发新版了,欢迎下载、更新

预测和解释AI模型性能:一种新的评估方法

2025-05-12 16:00:00 英文原文

作者:Brenda Potts

The image shows a radar chart comparing the performance of different AI models across various metrics. The chart has a circular grid with labeled axes including VO, AS, CEc, CEe, CL, MCr, MCt, MCu, MS, QLI, QLqA, SNs, KNa, KNc, KNF, KNn, and AT. Different AI models are represented by various line styles: Babbage-002 (dotted line), Davinci-002 (dash-dotted line), GPT-3.5-Turbo (dashed line), GPT-4.0 (solid thin line), OpenAI ol-mini (solid thick line), and OpenAI o1 (solid bold line). There is a legend in the bottom left corner explaining the line styles for each model. The background transitions from blue on the left to green on the right.

加速基础模型研究(AFMR)Grant计划,来自Microsoft的研究人员和合作机构的研究团队已开发出一种评估AI模型的方法,以预测他们在不熟悉的任务上的执行方式,并解释原因,当前的基准测试基准很难做到。

在纸上一般量表解锁AI评估,并具有解释性和预测能力,他们引入了一种超越总体准确性的方法。它评估任务所需的知识和认知能力,并根据模型的能力进行评估。

阿黛尔:基于能力的任务评估方法

该框架使用Adele(带注释的按需级别),该技术通过对18种类型的认知和基于知识的能力应用测量量表来评估AI模型的要求对AI模型的要求。这个困难评级是基于详细的标题,最初是为人类任务开发的,并在由AI模型应用

微软研究博客

White outline illustrations for AIOps on a blue and green gradient background.

AIOPSLAB:为自主云建造AI代理

AIOPSLAB是一个开源框架,旨在评估和改善云操作的AI代理,为现实世界测试提供标准化的可扩展基准,从而增强了云系统的可靠性。

通过比较任务的要求与模型可以执行的操作,Adele生成了一个能力概况这不仅可以预测性能,还可以解释为什么模型可能成功或失败将结果与特定优势或局限性联系起来。

18个量表反映了核心认知能力(例如注意力,推理),知识领域(例如自然科学或社会科学)以及其他与任务相关的因素(例如,互联网上任务的患病率)。每个任务根据给定能力汲取的程度从0到5的额定值。例如,一个简单的数学问题可能会在正式知识上得分1,而需要高级专业知识的人可以得分5。

Figure 1: This diagram presents a framework for explaining and predicting AI performance on new tasks using cognitive demand profiles. The System Process (top) evaluates an AI system on the ADeLe Battery—tasks annotated with DeLeAn rubrics—to create an ability profile with each dimension representing what level of demand the model can reach. The Task Process (bottom) applies the same rubrics to new tasks, generating demand profiles from annotated inputs. An optional assessor model can be trained to robustly predict how well the AI system will perform on these new tasks by matching system abilities to task demands.
图1。顶部:对于每个AI模型,(1)在Adele基准上运行新系统,以及(2)提取其能力配置文件。底部:对于每个新任务或基准测试,(a)应用18个标题,(b)获取需求直方图和配置文件,以说明任务所需的能力。可选地,根据系统的需求和能力配置文件或过去的性能数据预测任何系统的新任务性能。

为了开发该系统,团队分析了16,000个示例,这些示例涵盖了63个来自20个AI基准测试的任务,创建了一种统一的测量方法,该方法在各种任务中都可以使用。这详细介绍了18个一般量表的评分如何解释模型成功或失败,并预测熟悉和陌生设置中新任务的绩效。

评估结果 

该团队使用阿黛尔(Adele)评估了20个流行的AI基准,并发现了三个关键发现:1)当前的AI基准测试具有测量限制;2)AI模型显示出不同功能的优势和劣势的不同模式;3)Adele提供了对AI系统是在新任务上成功还是失败的准确预测。 

1。在AI测试方法中揭示隐藏缺陷一个 

许多受欢迎的AI测试要么不衡量其声称的含义,要么仅涵盖有限的难度水平。例如,公务员考试的基准旨在测试逻辑推理,但它也需要其他能力,例如专业知识和元认知。同样,旨在测试时间推理的TimeQA仅包括缺乏简单和复杂的挑战的中等问题。” 

2。创建详细的AI能力配置文件一个 

使用每种能力的0 -5等级,团队创建了15个LLM的综合能力概况。对于测得的18个能力中的每一种,他们绘制了主题特征曲线,以显示模型的成功率如何随着任务难度而变化。” 

然后,他们计算了每个能力的分数,即模型具有成功机会50%的难度水平,并使用这些结果来生成径向图,显示了各个尺度和水平上每个模型的优势和劣势,如图2所示。

Figure 2: The image consists of three radar charts showing ability profiles of 15 LLMs evaluated across 18 ability scales, ranged from 0 to infinity (the higher, the more capable the model is). Each chart has multiple axes labeled with various ability scales such as VO, AS, CEc, AT, CL, MCr, etc. The left chart shows ability for Babbage-002 (light red), Davinci-002 (orange), GPT-3.5-Turbo (red), GPT-4 (dark red), OpenAI o1-mini (gray), and OpenAI o1 (dark gray). The middle chart shows ability for LLaMA models: LLaMA-3.2-1B-Instruct (light blue), LLaMA-3.2-3B-Instruct (blue), LLaMA-3.2-11B-Instruct (dark blue), LLaMA-3.2-90B-Instruct (navy blue), and LLaMA-3.1-405B Instruct (very dark blue). The right chart shows ability for DeepSeek-R1-Dist-Qwen models: DeepSeek-R1-Dist-Qwen-1.5B (light green), DeepSeek-R1-Dist-Qwen-7B (green), DeepSeek-R1-Dist-Qwen-14B (dark green), DK-R1-Dist-Qwen-32B (very dark green). Each model's ability is represented by a colored polygon within the radar charts.
图2。评估的15个LLM的能力曲线。

该分析揭示了以下内容: 

  • 当针对人类绩效进行衡量时,AI系统在18个能力尺度上显示出不同的优势和劣势。 
  • 较新的LLM通常胜过较旧的LL,尽管在所有能力方面都不一致。 
  • 与知识相关的表现在很大程度上取决于模型规模和训练方法。 
  • 推理模型在逻辑思维,学习和抽象以及社交能力(例如推断用户的心理状态)中对非争议模型的收益明显。” 
  • 在给定阈值后,增加通用模型的大小只会导致性能较小。 

3。预测AI成功和失败一个 

除评估外,该团队还基于需求级的测量来创建一个实用的预测系统,以预测模型是否会成功完成特定任务,甚至是陌生的任务。” 

该系统在预测诸如GPT-4O和Llama-3.1-405b(例如传统方法)的流行模型的性能方面达到了大约88%的精度。这使得在部署之前可以预测潜在的故障,并为AI模型的可靠性评估添加了重要的步骤。

展望未来

Adele可以扩展到多模式和体现的AI系统,它有可能作为AI研究,决策和安全审计的标准化框架。

这项技术标志着AI评估的科学迈出的重大一步,该一步既可以清楚地解释系统行为,又提供对性能的可靠预测。它与以前的愿景一致微软位置纸关于将心理计量学应用于AI评估的承诺和最近的社会AI白皮书强调AI评估的重要性。

随着通用AI的进步速度比传统评估方法更快,这项工作为使AI评估更加严格,透明且为现实世界的部署做好了及时的基础。研究团队正在努力建立一个协作社区,以加强和扩大这一新兴领域。

关于《预测和解释AI模型性能:一种新的评估方法》的评论


暂无评论

发表评论

摘要

来自Microsoft和合作机构的研究人员开发了Adele,Adele是一种基于能力的方法,可以使用带注释的按需级别(Adele)评估AI模型。该框架评估了18种类型的认知和基于知识的能力,以预测不熟悉任务的模型表现,并解释其成功或失败背后的原因。该团队用Adele评估了20个流行的基准测试,并发现它准确地预测了AI系统是成功还是失败,在预测特定任务的性能方面表现出色。这项工作旨在为严格的AI评估建立标准化框架,从而推进通用AI评估领域。

相关讨论