英语轻松读发新版了,欢迎下载、更新

Meta的新AI模型的基准有点误导|TechCrunch

2025-04-06 21:16:03 英文原文

作者:Kyle Wiggers

Meta sign
图片来源:凯利·沙利文 /盖蒂图像

中的一个新旗舰AI模型Meta于周六发行,Maverick,在LM竞技场排名第二,具有人类评估者的测试比较了模型的产出并选择他们喜欢的。但是,Meta部署到LM Arena的Maverick的版本与开发人员广泛使用的版本不同。

作为一些 人工智能 研究人员Meta在X上指出,其宣布LM Arena上的小牛是一个实验性聊天版本。官方骆驼网站同时,揭示了Meta的LM竞技场测试是使用针对会话性优化的Llama 4 Maverick进行的。

正如我们之前写的那样,由于各种原因,LM Arena从来都不是AI模型性能的最可靠度量。但是,AI公司通常没有定制或以其他方式对其模型进行微调,以在LM Arena上获得更好的评分,或者至少没有承认这样做。

将模型量身定制为基准,扣留该模型,然后释放同一模型的香草变体的问题是,它使开发人员精确地预测该模型在特定环境中的性能。这也具有误导性。理想情况下,基准他们是不足的`提供一系列任务的单一模型优势和劣势的快照。

确实,X的研究人员有观察到史塔克 行为差异与在LM Arena上举办的模型相比,公开下载的小牛。LM竞技场版本似乎使用了很多表情符号,并给出了令人难以置信的漫长答案。

好的,美洲驼4是一个煮熟的大声笑,这个Yap城市是什么pic.twitter.com/y3gvhbvz65

内森·兰伯特(@natolambert)2025年4月6日

由于某种原因,竞技场中的Llama 4模型使用了更多的表情符号

一起。AI,似乎更好:pic.twitter.com/f74odx4ztt

技术开发注释(@TechDevnotes)2025年4月6日

我们与维持LM Arena的组织Meta和Chatbot Arena接触。

Kyle Wiggers是TechCrunch的AI编辑。他的写作出现在VentureBeat和数字趋势中,以及一系列小工具博客,包括Android警察,Android Authority,Droid-Life和XDA-Developers。他与他的伴侣,音乐治疗师一起住在曼哈顿。

关于《Meta的新AI模型的基准有点误导|TechCrunch》的评论


暂无评论

发表评论

摘要

Meta发布了一种名为Maverick的新型AI模型,该模型在LM竞技场排名第二。但是,测试的版本与公开可用的版本不同,正如Meta所指出的那样,它是针对对话性优化的“实验性聊天版本”。这种差异引起了人们对AI性能报告中基准可靠性和透明度的担忧,这使开发人员难以准确预测现实世界的性能。研究人员观察到公共模型和LM竞技场版本之间存在明显的差异,后者使用更多的表情符号并提供更长的答案。与Meta和Chatbot Arena联系以供评论。

相关新闻

相关讨论