根据芝加哥大学的研究人员的说法,八月份的一个新的人工智能基准表明,AI模型可以预测现实世界中的事件与预测市场一样准确,有时甚至更好。Sigma实验室。
先知竞技场通过让AI系统预测来自Kalshi和Polymarket等平台的现场,未解决事件的结果,从选举结果到体育比赛和经济指标。与传统的基准测试模型对具有已知答案的历史数据进行测试,先知竞技场对未来的预测进行了测试AI。
通过将评估锚定在未解决的现实世界中,先知竞技场可确保一个公平的竞争环境。先知竞技场团队在基准的官方博客文章中说,没有预训练的优势,没有秘密的微调技巧,没有测试样本的泄漏。
基准表示,它正在尝试解决有关人工智能的基本问题:AI系统可以通过在现有现实世界中的点上连接点来可靠地预测未来吗?
早期结果表明他们可以。GPT-5目前以82.21%的布里尔(Brier)得分领先排行榜。同时,OpenAI的O3-Mini模型已成为利润冠军,当将其预测转换为模拟下注时,其平均收益最高(通常是一个失败者有足够的机会赢得胜利可以提供更多的回报,鉴于适当的条件)。
DeepSeek R1似乎是小组中的逆势人工智能,经常做出与其他模型和市场共识急剧不同的预测,因此,如果您想快速赚钱,可能不是最信任的模型无数市场。
该平台在面对相同的信息时揭示了AI模型中的不同“个性”。在一个例子中,当预测AI法规是否在2026年之前成为联邦法律时,市场的可能性仅为25%。但是这些模型差异很大:QWEN 3预测75%,GPT-4.1估计为60%,而Llama 4 Maverick保持保守,为35%。
在另一种情况下,O3-Mini通过正确预测多伦多足球俱乐部将在一场大联盟足球比赛中击败圣地亚哥足球俱乐部,以1美元的赌注获得了模拟的9美元回报。该模型给多伦多带来了30%的获胜机会,而市场的价格仅为11%。多伦多赢了。
研究人员写道:“(先知竞技场)测试模型的预测能力,这是一种高度形式的智力,需要广泛的能力,包括了解现有信息和新闻来源,不确定性的推理以及对展开事件的时间敏感预测。”