作者:Kyle Wiggers
中的一个新旗舰AI模型Meta于周六发行,Maverick,在LM竞技场排名第二,具有人类评估者的测试比较了模型的产出并选择他们喜欢的。但是,Meta部署到LM Arena的Maverick的版本与开发人员广泛使用的版本不同。
作为一些 人工智能 研究人员Meta在X上指出,其宣布LM Arena上的小牛是一个实验性聊天版本。官方骆驼网站同时,揭示了Meta的LM竞技场测试是使用针对会话性优化的Llama 4 Maverick进行的。
正如我们之前写的那样,由于各种原因,LM Arena从来都不是AI模型性能的最可靠度量。但是,AI公司通常没有定制或以其他方式对其模型进行微调,以在LM Arena上获得更好的评分,或者至少没有承认这样做。
将模型量身定制为基准,扣留该模型,然后释放同一模型的香草变体的问题是,它使开发人员精确地预测该模型在特定环境中的性能。这也具有误导性。理想情况下,基准他们是不足的`提供一系列任务的单一模型优势和劣势的快照。
确实,X的研究人员有观察到史塔克 行为差异与在LM Arena上举办的模型相比,公开下载的小牛。LM竞技场版本似乎使用了很多表情符号,并给出了令人难以置信的漫长答案。
好的,美洲驼4是一个煮熟的大声笑,这个Yap城市是什么pic.twitter.com/y3gvhbvz65
内森·兰伯特(@natolambert)2025年4月6日
由于某种原因,竞技场中的Llama 4模型使用了更多的表情符号
一起。AI,似乎更好:pic.twitter.com/f74odx4ztt
技术开发注释(@TechDevnotes)2025年4月6日
我们与维持LM Arena的组织Meta和Chatbot Arena接触。
Kyle Wiggers是TechCrunch的AI编辑。他的写作出现在VentureBeat和数字趋势中,以及一系列小工具博客,包括Android警察,Android Authority,Droid-Life和XDA-Developers。他与他的伴侣,音乐治疗师一起住在曼哈顿。