首选的基准人工智能(AI)聊天机器人正在面临研究人员的审查,他们声称其测试有利于大型科技公司的专有AI模型。
LM Arena有效地将两种身份不明的大语言模型(LLMS)置于一场战斗中,以查看哪些可以最好地解决及时的问题,而基准的用户投票赞成他们最喜欢的输出。然后将结果馈送到一个排行榜中,该排行榜跟踪模型表现最好以及如何改进的排名。
但是,研究人员声称基准是偏斜的,授予了LLMS主要的“未公开的私人测试实践”,这使他们比开源LLM具有优势。研究人员于4月29日在预印度数据库中发布了他们的发现arxiv,因此该研究尚未经过同行评审。
研究人员在研究中写道:“我们表明,聊天机器人竞技场(后来的LM竞技场)对同一小组的少数提供商和优先政策之间的协调危害了科学完整性和可靠的竞技场排名。”“作为一个社区,我们必须更好地要求。”
运气?局限性?操纵?
从加利福尼亚大学研究人员创建的研究项目聊天机器人竞技场(Chatbot Arena)开始天空计算实验室,LM Arena很快成为AI顶级公司和开源弱者来测试其模型的热门网站。该网站偏爱从用户响应中得出的“基于Vibes”的分析,该网站现在每月获得超过100万的访问者。
为了评估该地点的公正性,研究人员在五个月内进行了超过280万场战斗。他们的分析表明,少数优先的提供商 - 包括Meta,OpenAI,Google和Amazon在内的公司的旗舰模型“被授予了对数据和测试的不成比例访问”,因为它们的模型以更高的战斗出现,并以很大的优势授予他们的最终版本。
研究人员写道:“诸如Google和Openai之类的提供商分别获得了竞技场所有数据的19.2%和20.4%。”“相比之下,总共83个开放权重模型仅收到了总数据的29.7%。”
此外,研究人员指出,在正式发布之前,在LM竞技场多次对专有LLM进行了测试。因此,这些模型可以更多地访问竞技场的数据,这意味着,当它们最终与其他LLMS相匹配时,他们可以轻松击败它们,只有每个LLM的表现最好的迭代位于公共排行榜上。
“在极端情况下,我们在Llama-4发行版中确定了由Meta测试的27个私人LLM变体。我们还确定,以更高的速率(战斗数)对专有的封闭模型进行采样,并且从竞技场中删除的模型少于开放量和开放选择的替代方案,”研究人员在研究中写道。“这两种策略会随着时间的流逝而导致大量数据访问不对称。”
实际上,研究人员认为,能够测试具有缩回基准分数的能力,只有其LLM的性能最高的LLM的能力放在排行榜上,并且比其他人更经常出现在竞技场上的某些商业模型,使大型AI公司更经常出现在竞技场上,这使大型AI公司具有“过度使用”模型。这可能会提高他们的竞技场表现,而不是竞争对手,但这可能并不意味着他们的模型必然具有更好的质量。
该研究质疑LM竞技场的权威是AI基准。LM Arena尚未向现场科学发表正式评论,仅在电子邮件回复中提供背景信息。但是该组织确实在社交平台X上发布了对研究的回应。
公司代表说:“关于某些模型提供者不公平对待的说法:这是不正确的。鉴于我们的能力,我们一直试图尊重我们收到的所有评估请求。”在帖子中写。“如果模型提供商选择比另一个模型提供商提交更多的测试,这并不意味着第二个模型提供商会受到不公平的处理。每个模型提供商都对如何使用和重视人类偏好做出不同的选择。”
LM Arena还声称,研究人员的数据和方法论中存在错误,回答LLM开发人员无法选择要披露的最佳分数,并且只有发布的LLM所获得的分数才会在公共排行榜上放置。
尽管如此,这些发现提出了有关如何以公平,一致的方式测试LLM的问题,尤其是通过图灵测试它不是曾经的AI水印,也不是科学家正在寻找更好地评估AI快速增长能力的更好方法。