英语轻松读发新版了,欢迎下载、更新

关于AI基准测试的辩论已达到神奇宝贝|TechCrunch

2025-04-14 22:27:55 英文原文

作者:Kyle Wiggers

Pokémon
图片来源:pokâ©蒙

甚至没有Poké©Mon也没有AI基准争议。

上周,在X上发帖开了病毒,声称Google最新的Gemini Model超过了人类的旗舰Claude Model,在原始的Poké©Mon视频游戏三部曲中。据报道,双子座在开发商的抽搐流中到达了薰衣草镇。克劳德是卡在山上截至2月下旬。

到达薰衣草小镇后

119只有现场景观,顺便说一句,被低估的流得令人难以置信pic.twitter.com/8avsovai4x

Jush(@jush21e8)2025年4月10日

但是帖子未提及的是,双子座有一个优势。

作为Reddit上的用户指出,维护双子座流的开发人员构建了一个自定义的最小值,该自定义的最小值可以帮助模型在游戏中识别瓷砖,例如可切成薄片的树。这减少了双子座在做出游戏决策之前对屏幕截图进行分析的需求。

现在,Pokâ©Mon是一个半严重的AI基准,充其量是很少有人会认为这是对模型功能的非常有用的测试。但是它是一个有启发性的示例,说明基准的不同实现如何影响结果。例如,拟人化

报告在经过验证的基准SWE基础上,其最近的拟人化3.7十四行诗模型的分数为两个分数,该模型旨在评估模型的编码能力。Claude 3.7十四行诗在经过验证的SWE基础上获得了62.3%的精度,但具有70.3%的定制脚手架,这是70.3%。

最近,元微调它的新型模型之一,Llama 4 Maverick,在特定基准LM Arena上表现良好。这香草版在同一评估中,模型的得分明显差。

鉴于AI基准测试包括Mon包括不完美的措施首先,定制和非标准的实施可能会进一步泥泞。也就是说,似乎没有任何更容易地比较模型时的模型。

Kyle Wiggers是TechCrunch的AI编辑。他的写作出现在VentureBeat和数字趋势中,以及一系列小工具博客,包括Android警察,Android Authority,Droid-Life和XDA-Developers。他与他的伴侣,音乐治疗师一起住在曼哈顿。

关于《关于AI基准测试的辩论已达到神奇宝贝|TechCrunch》的评论


暂无评论

发表评论

摘要

X上的一篇文章声称Google的Google模型在Pokémon视频游戏三部曲中优于Anthropic的Claude模型,而Claude被困在Mount Moon时,到达了薰衣草小镇。但是,批评家指出,双子座流的开发人员使用自定义的最小值来协助AI,从而使其具有不公平的优势。该事件强调了使用Pokémon作为AI性能的基准等游戏的挑战和潜在偏见,从而强调了对标准化测试方法的需求。