2025-04-06 21:16:03 · 英文原文

Meta的新AI模型的基准有点误导|TechCrunch

作者：Kyle Wiggers

2:16 PM PDT - 2025年4月6日

中的一个新旗舰AI模型Meta于周六发行，Maverick，在LM竞技场排名第二，具有人类评估者的测试比较了模型的产出并选择他们喜欢的。但是，Meta部署到LM Arena的Maverick的版本与开发人员广泛使用的版本不同。

作为一些人工智能研究人员Meta在X上指出，其宣布LM Arena上的小牛是一个实验性聊天版本。官方骆驼网站同时，揭示了Meta的LM竞技场测试是使用针对会话性优化的Llama 4 Maverick进行的。

正如我们之前写的那样，由于各种原因，LM Arena从来都不是AI模型性能的最可靠度量。但是，AI公司通常没有定制或以其他方式对其模型进行微调，以在LM Arena上获得更好的评分，或者至少没有承认这样做。

将模型量身定制为基准，扣留该模型，然后释放同一模型的香草变体的问题是，它使开发人员精确地预测该模型在特定环境中的性能。这也具有误导性。理想情况下，基准他们是不足的`提供一系列任务的单一模型优势和劣势的快照。

确实，X的研究人员有观察到史塔克行为差异与在LM Arena上举办的模型相比，公开下载的小牛。LM竞技场版本似乎使用了很多表情符号，并给出了令人难以置信的漫长答案。

好的，美洲驼4是一个煮熟的大声笑，这个Yap城市是什么pic.twitter.com/y3gvhbvz65

内森·兰伯特（@natolambert）2025年4月6日

由于某种原因，竞技场中的Llama 4模型使用了更多的表情符号

一起。AI，似乎更好：pic.twitter.com/f74odx4ztt

技术开发注释（@TechDevnotes）2025年4月6日

我们与维持LM Arena的组织Meta和Chatbot Arena接触。

Kyle Wiggers是TechCrunch的AI编辑。他的写作出现在VentureBeat和数字趋势中，以及一系列小工具博客，包括Android警察，Android Authority，Droid-Life和XDA-Developers。他与他的伴侣，音乐治疗师一起住在曼哈顿。

暂无评论

OC