在人工智能的快节奏发展中,如何评估和理解最先进模型的能力的问题比以往任何时候都更加紧迫。新的、功能强大的模型不断发布,每次发布都预示着智能领域的下一次重大飞跃。然而,作为研究人员和开发人员,我们经常问自己:这些模型在功能方面是否具有可比性(即使不相同)?当然,有充分的理由相信它们是这样的,因为许多人在标准基准测试中得分相似。此外,众多排行榜中的排名并没有提供一致且详细的解释,说明为什么某个模型的排名略优于其他模型。但是,如果某些模型根本不同,那么它们的优点和缺点是什么?更重要的是,是否有一些功能对于让人工智能在现实世界中发挥作用至关重要,但对大多数模型来说仍然普遍具有挑战性?回答这些问题有助于我们了解我们处于人工智能前沿的位置,以及需要改进哪些能力才能满足人类和科学对安全、负责任地部署人工智能模型的期望。
这些问题的普遍存在模型取决于我们成熟深度人工智能评估和测量科学的能力。在我们最新的开源版本和技术报告 EUREKA:评估和理解大型基础模型(在新选项卡中打开)中,我们通过对 12 个最先进的专有和开放模型进行深入的测量分析来开始回答这些问题-权重模型。这一分析的背后是 Eureka(在新选项卡中打开),这是一个开源框架,用于标准化大型基础模型的评估,超越单分报告和排名。该框架目前支持语言和多模式(文本和图像)数据,使开发人员能够定义用于数据处理、推理和评估的自定义管道,并可以继承现有管道并最大限度地减少开发工作。Eureka 和我们所有的评估管道都作为开源提供,以促进透明和可重复的评估实践。我们希望与开源社区合作,共享和扩展新功能和模型的当前测量。
Eureka 在丰富的内容中测试模型基本语言和多模式功能的集合,即使对于最先进的模型来说也具有挑战性,但经常被模型发布中通常报告的标准基准所忽视。实际上,这也意味着我们的分析有意不以过度饱和的基准为中心。尽管这听起来很不传统,但其背后有两个原因。首先,在饱和基准上进行测量(大多数模型的性能超过 95%),为故障分析和模型比较留下的空间非常小。其次,尽管饱和可能源于真正的模型改进,但对记忆和标签错误过度拟合的担忧会降低测量的可信度,尤其是在非常高精度的情况下。
聚焦:人工智能驱动的体验
p>
尽管排名和排行榜仍然是比较模型的最快方法,但它们很少发现失败的重要条件。由于过度依赖性能的单分数聚合,更细微的比较结果隐藏在许多功能和实验条件下聚合的模型分数之间的微小差异后面。
正如我们在研究中所示,对这些的追逐排名创造了令人惊讶的动力,不一定会产生相同的模型,但会产生使用不同互补技能在重要排行榜上获得可比总分的模型。想象一下,您是一名铁人三项运动员,目标是达到精英水平,而这在历史上大约需要两个小时。尽管您雄心勃勃地想要达到这一顶级水平,但您仍面临着培训和准备时间和资源有限的限制。在实践中,运动员经常将最好的资源集中在某些学科上取得优异成绩,同时力求在其他学科上取得令人满意的表现。他们根据自己的时间和经验,根据他们认为最能实现的目标来确定优先级。
我们在研究的 12 个模型中观察到类似的现象。即使两个模型在相同能力上的得分可能非常接近,但跨学科和输入条件分解该性能表明每个模型都有自己的互补优势。需要识别、衡量和理解单个模型的这些优势,以规划有针对性的改进。正如我们在尤里卡所做的那样,需要对大量模型重复此过程,以识别假设的前沿,指导研究和开发,并创建一个模型,该模型结合并提供基于现有模型中观察到的优势的功能。
当人们与协作者一起工作或选择工具来协助他们完成日常任务时,可预测性和一致性是成功协作的关键。同样,人类和应用程序开发人员希望他们的人工智能助手和模型在类似的输入和交互方面能够随着时间的推移保持一致。在我们的分析中,我们通过关注两个关键方面来研究模型性能的这一未被充分探索的角度:相同示例和提示的答案结果的确定性,以及模型更新后示例级别的模型答案的向后兼容性与新版本。这些领域中的任何一个缺乏一致性都会导致用户和应用程序开发人员失去信任。
分析显示了令人惊讶的结果,并提出了新的改进考虑因素。例如,我们观察到,很少有大型基础模型是完全确定性的,并且对于大多数模型来说,当多次询问同一问题时,输出存在明显的变化,最重要的是,在生成温度设置为零的情况下,准确度会告诉模型最小化世代中的随机性。此外,当将新模型版本与同一系列的早期模型进行比较时,可以在更新后观察到示例级别的大量回归,尽管总体精度可能会提高。实际上,这种类型的不一致可能会让依赖传播到基础模型的预先编写的示例和提示的应用程序开发人员感到沮丧。
图 1 是一个高级说明Eureka-Bench 的人工智能当前状态,突出显示各种功能的最佳和最差性能。这些结果揭示了不同模型优势的细微差别,表明没有一个模型能够在所有任务上表现出色。然而,Claude 3.5 Sonnet、GPT-4o 2024-05-13 和 Llama 3.1 405B 在几个关键领域始终优于其他版本。
Eureka 中的评估表明,状态-最先进的模型的多模态能力仍然相当有限,特别是在详细的图像理解方面(例如,对象的定位、几何和空间推理以及导航),而这在真正的多模态场景中是最需要的。物理意识、视觉基础和定位。
通过 Eureka 的评估表明:最先进的模型在遵循指令的语言能力、长上下文问答、信息检索和安全性方面取得了重要进展。分析还发现了模型之间的主要差异和差距,这些差异和差距与上下文长度、信息检索的事实性和基础以及拒绝行为的鲁棒性相关。
对于相同的运行,多个模型具有高度不确定性的输出。Gemini 1.5 Pro、GPT-4 1106 Preview、GPT-4 Vision Preview 和 GPT-4 Turbo 2024-04-09 显示出结果的高度不确定性。当使用相同的提示模板重复推理相同的查询时,这些结果提出了有关用户和开发人员体验稳定性的重要问题。Llama 3 70B、Llama 3.1 70B 和 Mistral Large 2407 几乎是完全确定的。
同一型号系列内的换档向后不兼容在所有状态下都很普遍。最先进的模型。这反映在单个示例和子类别级别的高回归率上。这种类型的回归可能会在模型更新期间破坏用户和应用程序开发人员的信任。回归因任务和指标而异,但我们观察到在三个模型系列(Claude、GPT、Llama)中回归高于 10% 的几种情况,有时它们可以主导整个数据子类别的进度率。
从这项研究中提取的补充结果强调了在各个领域改进当前模型的机会,旨在匹配该挑战集中每个单独能力的最佳模型的性能。然而,即使对于最有能力的模型来说,挑战集中的一些任务仍然很困难。讨论和探索是否可以通过当前的技术、架构和数据合成协议来解决这些差距至关重要。
最后,Eureka 和一组相关基准只是旨在实现这一目标的努力的初步快照。可靠地衡量人工智能的进展。我们的团队很高兴与开源社区和研究机构进一步合作,目标是共享和扩展新功能和模型的当前测量结果。