英语轻松读发新版了,欢迎下载、更新

Google的Kaggle举办了AI国际象棋锦标赛,以评估领先的AI模型的推理技能-Siliconangle

2025-08-04 16:00:25 英文原文

作者:by Mike Wheatley

Google的Kaggle举办AI国际象棋锦标赛,以评估领先的AI模型推理技能

全世界表现最佳的人工智能模型,包括Openai的S o3和04-Mini,Google LLC的Gemini 2.5 Pro和Gemini 2.5 Flash,Anthropic的Claude Opus 4和Xai Corp.的Grok 4设置为在国际象棋板上正对面。

为期三天的AI国际象棋大战是一系列锦标赛中的首次比赛。数据科学界Kaggle,在一个新开发的游戏领域。在那里,这些模型将在一系列战略游戏中相互竞争,旨在评估他们的思维和推理能力。

Google DeepMind和Kaggle与Chess.com合作,国际象棋应用程序接收拿走以及传奇的国际象棋现场直播Levy Rozman和Nakamura Hikaru Nakamura参加了比赛,明天将开始第一个模拟。

Kaggle游戏领域是一个新的AI基准测试平台,旨在测试包括Go和Wayswolf在内的一系列战略游戏中的竞争性大语言模型。但首先是8月5日至7日举行的AI国际象棋展览,在Kaggle.com上进行了模拟游戏。Hikaru Nakamura将提供评论在每场比赛中,利维·罗兹曼(Levy Rozman哥谭YouTube频道。锦标赛将以冠军对决和锦标赛的一流结束。拿youtube频道

检查员

将有八位争夺国际象棋冠军的竞争者:双子座2.5 Pro,Gemini 2.5 Flash,Claude Opus 4,DeepSeek-R1,Moonshot的Kimi 2-K2架构,O3,O4-Mini和Grok 4。锦标赛将基于标准的,单次亮相的表格,以每种比赛的范围赢得了一场比赛。Kaggle Game Arena每天将一轮直播,因此第一轮将在四分之一决赛的舞台上进行八个模特的四场比赛,随后在第二天的半决赛中进行了两场比赛,第三天进行了一次决赛对决。

在博客文章中,Google概述了规则数,说这些模型将响应基于文本的输入。没有一个竞争模型可以访问任何第三方工具,因此他们只能使用Stockfish Chess引擎来确定任何情况下的最佳举动。相反,他们必须自己思考。

这些模型将不会得到可能的法律行动列表,如果尝试采取这种行动,将允许三次重试。如果它无法做出法律行动,它将丧失游戏。此外,每个举动都会有60分钟的时间限制。

直播将尝试展示每个竞争模型的下一步行动以及对任何失败动作的反应。

除了比赛外,Kaggle还将根据他们在幕后几百场比赛中的表现,将创建一个更全面的排行榜,该排行榜排名每个模型。每个模型将多次与竞争对手模型进行拟合,并随机选择比赛。这个想法是,这将使Kaggle能够创建一个更强大的排行榜,该排行榜是每种模型国际象棋功能的全面基准。

Kaggle产品经理Meg Risdal表示,虽然比赛是一种有趣的观察和了解不同模型在游戏领域环境中的国际象棋方式,但最终排行榜将代表我们随着时间的推移保持模型能力的严格基准。”

Constellation Research Inc.的Holger Mueller表示,国际象棋是评估AI模型的推理能力的一种有趣方式,并认为AI爱好者对比赛会有很大的兴趣。但他说,大多数人会意识到,仅仅因为AI模型在国际象棋中踢屁股,这不一定意味着它适合企业工作量

穆勒说:“电子竞技即将参加LLM,很有趣的是,主要AI开发人员是否开始训练自己的模型以在此类比赛中表现更好,尤其是随着途中的更多游戏。”但是,该锦标赛实际上只具有娱乐价值,尽管它将提供一些有趣的见解,但赢得国际象棋比赛的能力不太可能影响企业高管,他们对如何自动化业务自动化更感兴趣。”

评估现实世界的技能

Google表示,它推出了Kaggle游戏领域,因为像国际象棋这样的游戏代表了对LLM推理能力进行强有力评估的最佳方法之一。

这是因为游戏对Google所谓的饱和度或换句话说是使用标准公式解决的。国际象棋,GO和其他游戏非常复杂,而且没有两场比赛是相同的,这意味着随着每个竞争对手的进步,难度水平都会增加。同时,狼人游戏能够测试基本的企业技能,例如通过不完整的信息导航并与竞争进行平衡。

此外,Google说,Games的行为就像是现实世界技能的代理,在战略计划,记忆,推理,适应,欺骗和思想理论,或试图预测对手思想的能力方面测试了模型的能力。同时,诸如狼人之类的团队游戏可以帮助评估每种模型的沟通和协调能力。

Kaggle的新游戏Arena将展示当前和即将举行的直播锦标赛,每个游戏都将拥有自己的专用页面,列出了排名排名的模型,比赛结果以及开放源游戏环境及其规则的具体细节。当每个模型都玩更多游戏时,排行榜将动态更新,并将较新的模型添加到排名中。

将来,Kaggle Game Arena将会扩展到更复杂,多人视频游戏和现实世界模拟,以生成更全面的基准,以评估不断扩展的AI模型技能。

图像:深度

通过共享和与我们的内容和社区互动来支持我们开放的免费内容。

加入Thecube校友信任网络

技术领导者联系,共享情报并创造机会

11.4k+ 

立方体校友网络

C级和技术

领域专家

与来自我们的技术和业务领导者网络的11,413多个行业领导者建立联系,形成独特的信任网络效应。

Siliconangle Media是数字媒体创新的公认领导者,为创新的受众和品牌提供服务,将尖端的技术,有影响力的内容,战略见解和实时受众参与汇总在一起。作为母公司硅固定,,,,Thecube网络,,,,Thecube研究,,,,Cube365,,,,thecube ai和Thecube Superstudios,例如在硅谷和纽约证券交易所(NYSE)建立的硅媒体媒体在媒体,技术和AI的交集中运行。Siliconangle Media由技术有远见的John Furrier和Dave Vellante创立,它建立了一个强大的行业领先数字媒体品牌的生态系统,拥有15百万Elite Elite Tech专业人员。该公司的新专有的Thecube AI视频云正在互动中破裂,并利用thecubeai.com神经网络来帮助技术公司做出数据驱动的决策并保持行业对话的最前沿。

Founded by tech visionaries John Furrier and Dave Vellante, SiliconANGLE Media has built a powerful ecosystem of industry-leading digital media brands, with a reach of 15+ million elite tech professionals. The company’s new, proprietary theCUBE AI Video cloud is breaking ground in audience interaction, leveraging theCUBEai.com neural network to help technology companies make data-driven decisions and stay at the forefront of industry conversations.

关于《Google的Kaggle举办了AI国际象棋锦标赛,以评估领先的AI模型的推理技能-Siliconangle》的评论


暂无评论

发表评论

摘要

Google的Kaggle将举办一项AI国际象棋锦标赛,其中包括Openai的O3和04-Mini,Google LLC,Google LLC的双子座变体,Anthropic的Claude Opus 4和Xai Corp.的Grok 4。为期三天的活动旨在通过与Matchary by Maintary by Hyare by Hikare by Hikare nikare nikare nikare nikare by Hikarue by Hikarue by Hikarue by Hikarue by Hikarue by Hikarue by Hikarue by Hikarue by Hikaru nikarue nikarue nikarue nikarue。规则包括没有第三方工具或移动列表的基于文本的输入,并在时间限制下强调单个模型推理。此外,Kaggle将根据数百个幕后游戏创建一个综合的排行榜,以对模型的性能进行排名。