关于AI基准测试的辩论已达到神奇宝贝|TechCrunch

作者：Kyle Wiggers

PDT下午3:27·2025年4月14日

甚至没有Poké©Mon也没有AI基准争议。

上周，在X上发帖开了病毒，声称Google最新的Gemini Model超过了人类的旗舰Claude Model，在原始的Poké©Mon视频游戏三部曲中。据报道，双子座在开发商的抽搐流中到达了薰衣草镇。克劳德是卡在山上截至2月下旬。

到达薰衣草小镇后

119只有现场景观，顺便说一句，被低估的流得令人难以置信pic.twitter.com/8avsovai4x

Jush（@jush21e8）2025年4月10日

但是帖子未提及的是，双子座有一个优势。

作为Reddit上的用户指出，维护双子座流的开发人员构建了一个自定义的最小值，该自定义的最小值可以帮助模型在游戏中识别瓷砖，例如可切成薄片的树。这减少了双子座在做出游戏决策之前对屏幕截图进行分析的需求。

最近，元微调它的新型模型之一，Llama 4 Maverick，在特定基准LM Arena上表现良好。这香草版在同一评估中，模型的得分明显差。

鉴于AI基准测试包括Mon包括不完美的措施首先，定制和非标准的实施可能会进一步泥泞。也就是说，似乎没有任何更容易地比较模型时的模型。

Kyle Wiggers是TechCrunch的AI编辑。他的写作出现在VentureBeat和数字趋势中，以及一系列小工具博客，包括Android警察，Android Authority，Droid-Life和XDA-Developers。他与他的伴侣，音乐治疗师一起住在曼哈顿。

OC