Eureka：评估和理解人工智能的进展 - Microsoft

2024-09-17 16:00:00 英文原文

在人工智能的快节奏发展中，如何评估和理解最先进模型的能力的问题比以往任何时候都更加紧迫。新的、功能强大的模型不断发布，每次发布都预示着智能领域的下一次重大飞跃。然而，作为研究人员和开发人员，我们经常问自己：这些模型在功能方面是否具有可比性（即使不相同）？当然，有充分的理由相信它们是这样的，因为许多人在标准基准测试中得分相似。此外，众多排行榜中的排名并没有提供一致且详细的解释，说明为什么某个模型的排名略优于其他模型。但是，如果某些模型根本不同，那么它们的优点和缺点是什么？更重要的是，是否有一些功能对于让人工智能在现实世界中发挥作用至关重要，但对大多数模型来说仍然普遍具有挑战性？回答这些问题有助于我们了解我们处于人工智能前沿的位置，以及需要改进哪些能力才能满足人类和科学对安全、负责任地部署人工智能模型的期望。

这些问题的普遍存在模型取决于我们成熟深度人工智能评估和测量科学的能力。在我们最新的开源版本和技术报告 EUREKA：评估和理解大型基础模型（在新选项卡中打开）中，我们通过对 12 个最先进的专有和开放模型进行深入的测量分析来开始回答这些问题-权重模型。这一分析的背后是 Eureka（在新选项卡中打开），这是一个开源框架，用于标准化大型基础模型的评估，超越单分报告和排名。该框架目前支持语言和多模式（文本和图像）数据，使开发人员能够定义用于数据处理、推理和评估的自定义管道，并可以继承现有管道并最大限度地减少开发工作。Eureka 和我们所有的评估管道都作为开源提供，以促进透明和可重复的评估实践。我们希望与开源社区合作，共享和扩展新功能和模型的当前测量。

专注于具有挑战性和非饱和的功能

Eureka 在丰富的内容中测试模型基本语言和多模式功能的集合，即使对于最先进的模型来说也具有挑战性，但经常被模型发布中通常报告的标准基准所忽视。实际上，这也意味着我们的分析有意不以过度饱和的基准为中心。尽管这听起来很不传统，但其背后有两个原因。首先，在饱和基准上进行测量（大多数模型的性能超过 95%），为故障分析和模型比较留下的空间非常小。其次，尽管饱和可能源于真正的模型改进，但对记忆和标签错误过度拟合的担忧会降低测量的可信度，尤其是在非常高精度的情况下。

聚焦：人工智能驱动的体验

超越单分测量和通用排名

尽管排名和排行榜仍然是比较模型的最快方法，但它们很少发现失败的重要条件。由于过度依赖性能的单分数聚合，更细微的比较结果隐藏在许多功能和实验条件下聚合的模型分数之间的微小差异后面。

正如我们在研究中所示，对这些的追逐排名创造了令人惊讶的动力，不一定会产生相同的模型，但会产生使用不同互补技能在重要排行榜上获得可比总分的模型。想象一下，您是一名铁人三项运动员，目标是达到精英水平，而这在历史上大约需要两个小时。尽管您雄心勃勃地想要达到这一顶级水平，但您仍面临着培训和准备时间和资源有限的限制。在实践中，运动员经常将最好的资源集中在某些学科上取得优异成绩，同时力求在其他学科上取得令人满意的表现。他们根据自己的时间和经验，根据他们认为最能实现的目标来确定优先级。

我们在研究的 12 个模型中观察到类似的现象。即使两个模型在相同能力上的得分可能非常接近，但跨学科和输入条件分解该性能表明每个模型都有自己的互补优势。需要识别、衡量和理解单个模型的这些优势，以规划有针对性的改进。正如我们在尤里卡所做的那样，需要对大量模型重复此过程，以识别假设的前沿，指导研究和开发，并创建一个模型，该模型结合并提供基于现有模型中观察到的优势的功能。

衡量一致性：非确定性和向后兼容性

当人们与协作者一起工作或选择工具来协助他们完成日常任务时，可预测性和一致性是成功协作的关键。同样，人类和应用程序开发人员希望他们的人工智能助手和模型在类似的输入和交互方面能够随着时间的推移保持一致。在我们的分析中，我们通过关注两个关键方面来研究模型性能的这一未被充分探索的角度：相同示例和提示的答案结果的确定性，以及模型更新后示例级别的模型答案的向后兼容性与新版本。这些领域中的任何一个缺乏一致性都会导致用户和应用程序开发人员失去信任。

分析显示了令人惊讶的结果，并提出了新的改进考虑因素。例如，我们观察到，很少有大型基础模型是完全确定性的，并且对于大多数模型来说，当多次询问同一问题时，输出存在明显的变化，最重要的是，在生成温度设置为零的情况下，准确度会告诉模型最小化世代中的随机性。此外，当将新模型版本与同一系列的早期模型进行比较时，可以在更新后观察到示例级别的大量回归，尽管总体精度可能会提高。实际上，这种类型的不一致可能会让依赖传播到基础模型的预先编写的示例和提示的应用程序开发人员感到沮丧。

Eureka Insights

图 1 是一个高级说明Eureka-Bench 的人工智能当前状态，突出显示各种功能的最佳和最差性能。这些结果揭示了不同模型优势的细微差别，表明没有一个模型能够在所有任务上表现出色。然而，Claude 3.5 Sonnet、GPT-4o 2024-05-13 和 Llama 3.1 405B 在几个关键领域始终优于其他版本。

多模式功能

Eureka 中的评估表明，状态-最先进的模型的多模态能力仍然相当有限，特别是在详细的图像理解方面（例如，对象的定位、几何和空间推理以及导航），而这在真正的多模态场景中是最需要的。物理意识、视觉基础和定位。

最先进的多模态模型难以进行几何推理。
模型在高度推理方面的表现比深度推理方面的表现更差。Claude 3.5 Sonnet 和 Gemini 1.5 Pro 是执行此任务的最佳模型，其中 Claude 3.5 Sonnet 是深度排序最准确的模型，Gemini 1.5 Pro 是高度排序最准确的模型。
多模式功能滞后语言能力。
在可以描述为多模式或纯语言的任务上，大多数测试模型的性能在纯语言条件下更高。GPT-4o 2024-05-13 是唯一一个在同时提供视觉和语言信息时始终取得更好结果的模型，这表明它可以更好地融合两种数据模式。
跨模型的互补性能基本的多模态技能。
Claude 3.5 Sonnet、GPT-4o 2024-05-13 和 GPT-4 Turbo 2024-04-09 在多模态问答 (MMMU) 方面具有相当的性能。在物体识别和视觉提示等任务中，Claude 3.5 Sonnet 的性能优于或与 GPT-4o 2024-05-13 相当，但 Gemini 1.5 Pro 的性能优于两者。最后，在物体检测、空间推理等任务中，GPT-4o 2024-05-13 是最准确的模型。

语言

通过 Eureka 的评估表明：最先进的模型在遵循指令的语言能力、长上下文问答、信息检索和安全性方面取得了重要进展。分析还发现了模型之间的主要差异和差距，这些差异和差距与上下文长度、信息检索的事实性和基础以及拒绝行为的鲁棒性相关。

所有模型系列在遵循指令方面都有更快的改进。
指令遵循是指遵循用户提示中表达的有关与生成内容的格式、风格和结构相关的规范的指导的能力。在所研究的语言能力中，指令跟随是大多数模型改进较快的领域，这可能是由于在指令调优过程中的大力投资，目前大多数模型的指令跟随率高于 75%。
所有模型回答问题的性能随着上下文的增加而下降。
与大海捞针实验相反，在涉及长上下文推理的任务上测试最先进的模型显示，随着上下文大小的增加，性能显着下降。在所有模型中，GPT-4o 2024-05-13 和 Llama 3.1 405B 在较长上下文中的性能下降最低。
从参数知识或输入上下文进行信息检索的事实性和基础方面存在重大差距。
模型的查询事实准确率低于55%，事实召回率低于25%，无关信息和捏造信息率高于20%。Llama 3.1 405B、GPT-4o 2024-05-13 和 Claude 3.5 Sonnet 是该领域在不同条件下表现最好的。
高拒绝率。大多数型号的有毒成分检测准确度较低。
虽然某些型号的毒性检测准确率较高，但其他型号（Gemini 1.5 Pro、Claude 3.5 Sonnet、Claude 3 Opus 和 Llama 3.1 405B）的准确率较低有毒内容分类的准确性以及有毒或中性环境分类的高拒绝率，这两者都使得有毒内容难以检测。在安全语言生成评估中，GPT-4 1106 Preview 和 Mistral Large 2407 等模型的毒性率最高。GPT-4o 2024-05-13 是唯一同时具有高毒性检测精度和低毒性评分的安全语言生成模型。

非确定性

对于相同的运行，多个模型具有高度不确定性的输出。Gemini 1.5 Pro、GPT-4 1106 Preview、GPT-4 Vision Preview 和 GPT-4 Turbo 2024-04-09 显示出结果的高度不确定性。当使用相同的提示模板重复推理相同的查询时，这些结果提出了有关用户和开发人员体验稳定性的重要问题。Llama 3 70B、Llama 3.1 70B 和 Mistral Large 2407 几乎是完全确定的。

向后兼容性

同一型号系列内的换档向后不兼容在所有状态下都很普遍。最先进的模型。这反映在单个示例和子类别级别的高回归率上。这种类型的回归可能会在模型更新期间破坏用户和应用程序开发人员的信任。回归因任务和指标而异，但我们观察到在三个模型系列（Claude、GPT、Llama）中回归高于 10% 的几种情况，有时它们可以主导整个数据子类别的进度率。

结论

从这项研究中提取的补充结果强调了在各个领域改进当前模型的机会，旨在匹配该挑战集中每个单独能力的最佳模型的性能。然而，即使对于最有能力的模型来说，挑战集中的一些任务仍然很困难。讨论和探索是否可以通过当前的技术、架构和数据合成协议来解决这些差距至关重要。

最后，Eureka 和一组相关基准只是旨在实现这一目标的努力的初步快照。可靠地衡量人工智能的进展。我们的团队很高兴与开源社区和研究机构进一步合作，目标是共享和扩展新功能和模型的当前测量结果。

关于《Eureka：评估和理解人工智能的进展 - Microsoft》的评论

暂无评论

发表评论

摘要

在人工智能的快速发展中，如何评估和理解最先进模型的能力的问题比以往任何时候都更加紧迫。专注于具有挑战性和非饱和的功能Eureka 通过丰富的基础语言和多模式功能来测试模型，即使对于最先进的模型来说，这些功能也具有挑战性，但经常被模型发布中常见的标准基准所忽视。例如，我们观察到，很少有大型基础模型是完全确定性的，并且对于大多数模型来说，当多次询问同一问题时，输出存在明显的变化，最重要的是，在生成温度设置为零的情况下，准确度会告诉模型最小化世代中的随机性。多模态能力 Eureka 中的评估表明，最先进的模型在多模态能力方面仍然相当有限，特别是在详细的图像理解（例如，对象的定位、几何和空间推理以及导航）方面，这是在需要身体意识、视觉基础和定位的真正多模式场景中最需要。在物体识别和视觉提示等任务中，Claude 3.5 Sonnet 的性能优于或与 GPT-4o 2024-05-13 相当，但 Gemini 1.5 Pro 的性能优于两者。