OC

Knowledge OS
鹦鹉螺口语
人工智能在预测方面的能力正变得可怕
2026-02-11 12:00:00 · 英文原文

人工智能在预测方面的能力正变得可怕

作者:Ross Andersen

活在时间里就是想知道接下来会发生什么。在每个人类社会中,都有人痴迷于世界模式来预测未来。在古代,他们告诉国王哪些星星会在夜幕降临时出现。如今,他们建立了定量模型,推动政府开放资本龙头。他们在华尔街挑选赢家。他们为保险公司估算发生地震的可能性。他们告诉对冲基金的大宗商品交易员下个月的天气情况。

多年来,一些精英预测员一直在锦标赛中相互竞争,他们回答有关未来几个月或几年内将发生或不会发生的事件的问题。这些问题涵盖不同的主题,因为它们旨在衡量一般预测能力,而不是狭隘的专业知识。玩家可能会被问到不稳定的国家是否会发生政变,或者预测亚马逊某些地区未来的森林砍伐率。他们可能会被问到泰勒·斯威夫特即将发行的专辑中有多少歌曲将登上流媒体排行榜榜首。尽早做出最准确预测的预测者可以获得现金奖励,也许更重要的是,获得世界上最有才华的预言家的尊重。

在最近 Polymarket 和 Kalshi 等预测市场的蓬勃发展期间,这些锦标赛变得更加受欢迎,现在世界各地有数十万人在类似的预测问题上每月交易数十亿美元。现在人工智能也在其中发挥作用。起初,机器人表现不佳:到 2024 年底,甚至没有人工智能能够在一项重大比赛中获得第 100 名。但此后他们在排行榜上的排名不断上升。人工智能已经证明它们可以在有限的环境中做出超人的预测棋盘游戏,但他们可能很快就会比我们更好地预测整个混乱、偶然的世界的未来。


预测平台 Metaculus 每年举办三次锦标赛,众所周知,该锦标赛的题目特别困难。它通常会吸引更严肃的预测者,在最近的一次竞赛中排名第三的材料科学家本辛德尔告诉我。去年,在夏季杯上,伦敦一家名为 Mantic 的初创公司引入了人工智能预测引擎。与其他参与者一样,Mantic AI 必须通过分配某些结果的概率来回答 60 个问题。人工智能必须猜测乌克兰的战线将如何转变。它必须选出环法自行车赛的冠军,并估算《超人》首周末的全球票房收入。它必须说明中国是否会禁止某种稀土元素的出口,并预测9月份之前是否会有一场大型飓风袭击大西洋沿岸。它必须弄清楚埃隆·马斯克和唐纳德·特朗普是否会在一定日期范围内公开互相贬低。

几个月后,Mantic 预测引擎和其他锦标赛参与者的猜测与现实生活中的结果进行了相互比较。AI 在 500 多名参赛者中排名第八,这是机器人的新纪录。Mantic 首席执行官 Toby Shevlane 表示,“这是一个意想不到的突破”。Shevlane 告诉我,他辞去了 Google DeepMind 研究科学家的一份轻松工作,转而共同创立了这家公司。他想庆祝人工智能的胜利,但他担心这只是一些幸运猜测的产物。他和他的团队将其新版本打入了 Metaculus 秋季杯。那个机器人做得更好。它不仅获得了第四名(又一项纪录),而且还超过了所有人类预测者预测的加权平均值。事实证明,它比一群相当聪明的人的智慧更明智。

Mantic 的人工智能引擎旨在在几乎任何领域做出准确的预测。谢夫莱恩不会向我展示引擎的界面,而且他对其精确的结构也守口如瓶。他将其描述为一个“脚手架”,其中包含几个具有不同倾向的大型语言模型。这些个人法学硕士本身在一般预测方面做得更好,尤其是 OpenAI、Anthropic 和 Google 做出的预测。部分原因是良好的预测需要阅读和处理大量信息。例如,为了猜测环法自行车赛的获胜者,人类预测员可能会花费数小时根据前几年的结果构建基本回归模型,同时还会搜索伤病和体能报告并阅读车迷和专家的评论。人工智能在这里有天然的优势。它们的阅读速度比人类快得多,而且它们的认知能力在连续通宵熬夜后也不会崩溃。

去年,芝加哥大学教授徐海峰建议的一个团队建立了一项基准测试服务,可以持续评估人工智能的预测。几乎每天,它都会向主要模特提出来自卡尔希博彩市场的新问题。(最近询问他们苹果公司的下一任首席执行官是谁,以及谁将在即将到来的一季节目中担任主演)白莲花.)随着问题的解决,他们的准确性分数不断更新。“他们都有不同的预测个性,”徐告诉我。该服务评估的 ChatGPT 版本比较保守,或许过于保守;在 Xu 的排行榜上,它目前落后于 Grok 和 Gemini 的版本。

Mantic 的预测引擎结合了一堆 LLM,并为每个人分配不同的任务。一个人可以充当选举结果数据库的专家。另一个可能会被要求扫描天气数据、经济结果或票房收入,具体取决于它所攻击的问题。这些模型作为一个团队一起工作以生成最终预测。Shevlane 告诉我,Mantic 正在利用其计算资源来试验更复杂的脚手架,这些脚手架使用更多的模型。我问他是否已经就这些脚手架的总体结构寻求人工智能的意见。他说,还没有,但像几乎其他人一样,他们正在使用它来帮助编写预测引擎的代码。

一家名为 Lightning Rod Labs 的公司一直在试验专为特定领域构建的预测模型。他们甚至设计了一个来预测特朗普古怪行为的模型。该公司首席执行官 Ben Turtel 告诉我,他的团队向模型提出了一组 2,000 多个预测问题,这些问题的结果已知,但未包含在训练数据中。然后,该模型根据特朗普实际做过的事情检查其答案,并从错误中吸取教训。当该公司让小型模型预测特朗普在一系列新问题上的行为时(例如,他是否会亲自会见习近平,或者参加陆军-海军橄榄球比赛),它的表现优于 OpenAI 最先进的模型。

今年对于人工智能预测来说可能是重要的一年。今年 1 月,Mantic 将其最新的增强版引擎带入了 2026 年 Metaculus 春季杯。已经有人问有多少个奥斯卡奖了罪人如果美国很快攻击伊朗,就会获胜。到五月,这些问题将得到解决,我们将看看引擎的表现如何。如果它比最近的成绩上升一位,它将成为第一个在大型预测锦标赛中获得奖牌的人工智能。

如果人工智能获得金牌,那可能标志着一个新时代的到来。人类——日食的预测者、日食的理论家宇宙热寂——可能不再是未来的最佳指南。从现在开始,只要我们存在,我们就可能会问人工智能接下来会发生什么。我们并不总能理解他们是如何得出预测的。这个水晶球可能就像一个具有事件视界的黑洞,其洞察之光无法逃脱它。我们可能只能相信它的话。

到目前为止,人类精英预测家已经对这种可能性进行了很好的研究。当我与排名靠前的预报员辛德尔交谈时,他对人工智能除了钦佩之外没有什么可说的。“他们的推理能力非常好,”他告诉我。– 他们没有与人们相同的偏见。他们可以在新闻发生时立即了解消息,并且不会执着于自己的预测。”在 Metaculus 上,预测者小组已经开始估计人工智能何时能够超越人类精英团队的预测。去年 1 月,他们表示到 2030 年这种情况发生的可能性约为 75%。现在他们认为这一可能性更像是 95%。

关于《人工智能在预测方面的能力正变得可怕》的评论

暂无评论

发表评论