作者:Kyle Wiggers
甚至没有Poké©Mon也没有AI基准争议。
上周,在X上发帖开了病毒,声称Google最新的Gemini Model超过了人类的旗舰Claude Model,在原始的Poké©Mon视频游戏三部曲中。据报道,双子座在开发商的抽搐流中到达了薰衣草镇。克劳德是卡在山上截至2月下旬。
到达薰衣草小镇后
119只有现场景观,顺便说一句,被低估的流得令人难以置信pic.twitter.com/8avsovai4x
Jush(@jush21e8)2025年4月10日
但是帖子未提及的是,双子座有一个优势。
作为Reddit上的用户指出,维护双子座流的开发人员构建了一个自定义的最小值,该自定义的最小值可以帮助模型在游戏中识别瓷砖,例如可切成薄片的树。这减少了双子座在做出游戏决策之前对屏幕截图进行分析的需求。
现在,Pokâ©Mon是一个半严重的AI基准,充其量是很少有人会认为这是对模型功能的非常有用的测试。但是它是一个有启发性的示例,说明基准的不同实现如何影响结果。例如,拟人化
报告在经过验证的基准SWE基础上,其最近的拟人化3.7十四行诗模型的分数为两个分数,该模型旨在评估模型的编码能力。Claude 3.7十四行诗在经过验证的SWE基础上获得了62.3%的精度,但具有70.3%的定制脚手架,这是70.3%。
最近,元微调它的新型模型之一,Llama 4 Maverick,在特定基准LM Arena上表现良好。这香草版在同一评估中,模型的得分明显差。
鉴于AI基准测试包括Mon包括不完美的措施首先,定制和非标准的实施可能会进一步泥泞。也就是说,似乎没有任何更容易地比较模型时的模型。
Kyle Wiggers是TechCrunch的AI编辑。他的写作出现在VentureBeat和数字趋势中,以及一系列小工具博客,包括Android警察,Android Authority,Droid-Life和XDA-Developers。他与他的伴侣,音乐治疗师一起住在曼哈顿。