作者:Vinod Goje
Hugging Face最近发布了Open LLM Leaderboard v2,这是他们流行的版本的升级版基准测试大型语言模型平台。
Hugging Face创建了开放大模型排行榜以提供一个标准化评估参考模型的设置,确保结果可重复且可比较。
无内容可翻译,保持原样: The排行榜服务于AI社区的多重目的。它帮助研究人员和实践者通过提供可重复的评分来识别最先进的开源发布,从而区分市场营销宣传与实际进展。它允许团队通过公开对比现有最佳模型的方法来评估他们的工作,无论是在预训练还是微调阶段。此外,它还为在大规模语言模型开发方面的进步提供了获得公众认可的平台。
开源大模型排行榜自一年前推出以来已成为机器学习社区广泛使用的一个资源。根据Hugging Face,开放大模型排行榜在过去10个月里,已有超过200万独立用户访问过它,每月约有30万社区成员积极参与其中。
开源大模型排行榜v2解决了原版的局限性,并跟上了开源大模型领域的快速进展。
InfoQ 采访了 Hugging Face 领导板维护者之一的阿丽娜·洛佐夫斯卡娅,以了解更多关于此次更新背后的动机及其对人工智能社区的影响。
InfoQ您已将模型排名改为使用归一化分数,其中随机性能为0分,最高分为100分,然后再求平均值。与直接对原始分数取平均相比,这种归一化方法如何影响每个基准在最终得分中的相对权重?
阿丽娜·洛佐夫斯卡娅通过将每个基准测试的分数标准化为一个范围,其中随机性能为0,完美性能为100,然后再求平均值,最终得分中每个基准测试的相对权重会根据模型性能超出随机机会的程度进行调整。这种方法赋予了那些模型表现接近随机水平(更难的基准)的基准更多的权重,突出了超过偶然性的细微改进。相反地,在原始分数上已经获得高分的基准在标准化后所占比例较小。因此,经过标准化后的平均值确保每个基准对最终得分的影响程度反映了模型性能超出简单猜测的程度,从而相比于直接平均原始分数而言,实现了更公平和均衡的整体排名。
InfoQ基准数据污染一直是一个问题,有些模型意外地使用了来自TruthfulQA或GSM8K的数据进行训练。你们采取了哪些技术方法来减轻新基准中的这个问题?例如,有没有办法通过算法检测模型输出中潜在的污染?
洛佐夫斯卡娅总的来说,污染检测是一个活跃但非常新的研究领域:例如,首个专门针对此主题的工作坊在今年的ACL 2024会议上才刚刚举行(这是我们赞助的CONDA研讨会)。由于该领域还很新,目前还没有任何算法方法得到广泛认可。因此,我们正在探索新兴技术(如分析模型输出与未受污染参考数据之间的可能性)尽管当前没有一种方法是完全没有严重局限性的。我们也正在内部测试一些针对我们的排行榜特有的检测污染的方法,并希望很快能分享我们的进展。我们非常感谢我们的社区,因为我们也从他们的警惕中受益良多(用户总是能够迅速标记出性能可疑或可能被污染的模型)。
InfoQMuSR基准测试似乎更倾向于上下文窗口大小为10k令牌或更大的模型。你是否预料到大型语言模型的发展会朝着这种类型的任务显著转变?
洛佐夫斯卡娅近期出现了一种趋势,即扩展LLM能够准确解析的上下文长度,并且在这个领域的改进将对许多商业应用变得越来越重要(从多页文档中提取内容、总结、准确回答与用户的长时间对话等)。因此,我们已经看到并且预计会看到越来越多具备长上下文能力的模型。然而,通用LLM的发展很可能会在效率、任务多样性以及处理短上下文任务的表现等方面与其他优先事项之间取得平衡。开源模型的一个优点是它们允许每个人在其特定使用案例中获得高性能。
对于有兴趣进一步探索大型语言模型及其应用的读者,InfoQ 提供了由 Loubna Ben Allal 主讲的“代码的大规模语言模型”讲座。QCon伦敦此外,我们的2024年人工智能、机器学习和数据工程趋势报告提供了全面概述最新的领域发展动态。