英语轻松读发新版了,欢迎下载、更新

为什么人类在预测未来时仍然比AI好得多

2025-05-07 10:30:00 英文原文

作者:Dylan Matthews

能够预测未来似乎不错。我想知道我的标准普尔500指数资金会2月中旬的高峰然后在四月掉下悬崖。对于我在就职典礼上的报告中,这将是有帮助的特朗普政府将要攻击外国援助多远。当我尊重它的同时,我喜欢某种感觉抵押贷款利率正在,因此我可以更好地判断何时购买房屋。

系统地做出这类预测的艺术称为预测,我们很久以来都知道有些人所谓的超孔子比其他人更好。但是,即使他们也是鼻虫。重大事件有时仍然让他们感到惊讶。超级遗产的工作需要时间和精力,其中很多。

我们凡人也很难模仿使它们如此有效的原因。我写了一个世界上最好的超供货车团队之一的整体个人资料,被称为Samotsvety Group,尽管他们的技巧和窍门,但我并没有自己作为超级遗产。

但是您知道有时候学习比我更好吗?AI模型。

近年来,预测社区越来越关键地试图从AI燃料的预测机器人中构建和学习。当然,更专业的领域已经以各种形式这样做了一段时间。例如几十年来。但是,使用AI作为更通用的预测工具是一个新的主意。

我在该领域与之交谈的每个人都同意,人类的顶级预报员仍然击败机器。

最好的证据来自Metaculus季刊的比赛,一个主要的预测网站,参与者竞争最准确地预测未来。Metaculus最初仅针对人类,最近开始了机器人锦标赛,参赛者进入定制AI驱动的机器人,然后将其记录与最佳人类预测器进行比较。

到目前为止,我们在2024年的第三季度和第四季度的成绩以及2025年的第1季度,在每个季度,Metaculus的人类超级孔子击败了最好的机器。(如果您想尝试,每个季度的获胜者都有30,000美元的奖金。

但是,Metaculus首席执行官Deger Turan告诉我的差距在每个季度都在缩小。更吸引人的事实是今年第一季度的最佳模型非常简单:它只是拉起了一些最近的新闻文章,然后在最先进的Openai模型中问O1来做出自己的预测。这种方法无法击败人类,但是它击败了许多更复杂的AI模型。

O1不再是尖端的OpenAI模型;截至撰写本文时,它是O3。和一些指标,O3不像Gemini 2.5 Pro一样好,这是Google DeepMind的最佳模型。所有这些都是:虽然人类基本上保持不变,但AI只会变得更好,这可能意味着他们做出的预测也只会变得更好。

人类生活的几乎每个舞台都依赖良好的预测。律师预测其对手是否同意和解。建筑主管预测建筑项目何时完成。电影制作人预测剧本将是一个热门单曲。单身人士预测,他们重新聊天的人是否更喜欢第一次约会,而不是咖啡或啤酒。

我们现在不太擅长这些预测,但是我们很快就会变得更好。我们才刚刚开始意识到这种转变的含义。

从理论上讲,AI预报员只是一个依靠一种或另一种形式的机器学习模型来预测未来事件的程序。

预测是机器学习模型的核心:他们分析了大量的数据回报,然后提出可以预测数据外的模型。对于诸如Chatgpt或Claude或Midjourney之类的生成模型,这意味着预测用户需要响应查询的下一个单词或像素。对于算法交易模式,金融家至少自对冲基金建立以来就一直在建立文艺复兴技术在1982年,这意味着根据过去的业绩预测股票,债券和其他市场中资产价格的未来路径。

对于有关世界活动的更广泛的预测,如今的预测者倾向于在很大程度上依赖于XAI,Google Deepmind,Openai或Anthropic的公司的通用模型。这些在几个月内接受了价值数亿美元的GPU培训,这就是为什么相对较小的团队使用AI来预测对所有培训的预测要比从头开始训练的人更有前途的原因。(披露:Vox Media是与OpenAI签署了合作伙伴协议的几位出版商之一。我们的报告在编辑上仍然是独立的。拟人化的早期投资者之一是James McClave,其BEMC基金会帮助Future Perfect。)

预测术语表

预测本身就是一个世界,具有大量预测的特定术语和参考。这是您在预测世界中听到的一些常见术语的简短指南。

基本利率:在调整给定案件的细节之前,给定现象发生的历​​史速度(例如,国家发动战争的速度或标准普尔500指数总体下降的天数)。建立基本费率通常是预测的第一步。

Brier分数:一个常见的衡量标准是预测的准确性。使用公式计算得出预报员分配的概率和实际结果之间的距离。

校准:预报员指定发生的事件的概率与是否实际发生的事件相匹配。

metaculus:一个受欢迎的网站,预报员可以做出预测并比较准确性。不像预测市场那样结构。

预测市场:通常在线的股票市场市场,参与者可以下注真实的货币,加密货币或在发生是否发生的特定事件上赚钱。Kalshi,Polymarket和Marpolold是流行的预测市场。

范围灵敏度:明确推理不同现象规模的能力。好预测者的重要属性。

SuperForeCaster:一个人的预测比普通人类的人的预测更加准确,校准更好。

一支基于AI安全中心发布了纸张2024年10月声称超人的预测能力通过简单地提示大型语言模型(在这种情况下为OpenAi的4O模型)并刮擦最近的新闻文章。声称在审查下崩溃了:其他研究人员无法复制该发现,看来该模型可以很好地预测训练部分是因为它具有最新的数据,一个称为数据污染的问题。

想象一下,如果您是在2024年底,试图训练模型以预测当年民主党候选人是谁;您知道这将是卡马拉·哈里斯(Kamala Harris),但是要训练模型,您只想从那以后才能提供数据。但是,如果这些数据纯粹是从2024年初开始的,并且包括对哈里斯的最终提名的引用,那么您的预测可以表现得很好,但这仅仅是因为它可以访问它在现实世界中从未有过的数据。

一个更有前途的方法来自加州大学伯克利分校的计算机科学家Danny Halawi,Fred Zhang,Chen Yueh-Han和Jacob Steinhardt。他们的预报员还依靠语言模型,但进行了大量脚手架`:他们不简单地让机器人免费运行,而是要求语言模型按非常具体的顺序做一系列非常具体的事情,以获取最终结果:

  1. 首先,要求该模型提出一组查询,以发送到新闻社服务,以获取有关预测该问题的更多信息。
  2. 然后发送查询,新闻服务发送答复,并询问语言模型哪些答复可能最有帮助。然后,它总结了最高答复。
  3. 此过程首先是在旧问题上进行的,这些问题已经知道答案,并提供了旧新闻文章。然后要求模型根据这些旧文章的摘要进行预测。根据这些预测是否准确,可以对其性能进行微调。
  4. 然后要求微调模型以及其他几种更通用的模型进行预测,并使用了不同模型视图的平均值。

他们发现,仅直接询问语言模型,就会实现可怕的预测:大多数模型的分数比随机猜测更糟糕,”该团队在论文中写道。但是,一旦他们能够通过展示成千上万的成功预测(及其基本推理)来微调模型,结果就会好得多。

由此产生的预测机器人使问题的71.5%正确。相比之下,人类的预测网站研究人员用于比较,对参与者进行了平均预测,并获得了77%的准确性。人类比较者不像最好的超级孔子那样好,但这肯定比随机机会更好。

要点:AI预报员并没有达到人类水平,当然也不能达到击败人群的人类超级预言的水平。但这还不太遥远。

为什么对AI的预测很难

这是令人印象深刻的,但是自来就相当缓慢。“可以说,从学术角度来看,没有超过[UC Berkeley] Steinhardt的论文,该论文现在已经一岁了。Futuresearch构建基于AI的预测工具,告诉我。

整整一年听起来不那么多,但这是因为您用人类的话进行思考。在AI的世界中,一年是永恒的。``这个事实强调了施瓦茨和其他从事AI的企业家的预测告诉我:这些东西比看起来要困难。

具有讽刺意味的是,语言模型不是巨大的定量思想家或逻辑推理者。一些常见的预测问题以X事件的形式以Y日期发生:中国将在2030年到2030年入侵台湾。到2040年的发生至少应不低于到2030年发生的几率。

但是语言模型在逻辑和系统上的思考不足以知道这一点。预测平台MetaCulus的首席执行官Turan指出,进入该平台比赛的一些机器人试图对它们强加这种一致性,并设计出来,以强迫预测在内部保持一致。Turan说,他们最终取得了更好的结果。”赢得了2024年第四季度竞赛的软件工程师菲尔·戈丁(Phil Godzin)解释说他的模型的第一步是否要求LLM将相关问题分组在一起,并分批预测它们以保持内部一致性。

由于推理模型的曙光,这种限制可能变得不那么重要Openai的O3/O4-MiniDeepSeek S R1。这些模型与以前的语言模型有所不同,因为它们接受了广泛的后期训练,以确保它们对逻辑和数学问题提供了正确的答案,这些问题很容易检查(例如,有多少种在草莓中)。它们通常也被设计为在查询时使用更多的计算能力,以确保准确回答这类问题。从理论上讲,模型中的这种演变应该使预测的一致性更容易维护,尽管还为时过早,无法在实践中看到这个优势是否出现。

Futuresearch的Schwarz认为,糟糕的网络研究技能是至关重要的瓶颈。尽管诸如Chatgpt的深入研究模式之类的浮华特征,但有关给定情况的基本事实的整理是仍然是一个重大挑战对于AI模型。

Futuresearch本周透露深度研究长凳,试图为领先LLMS进行的基于Web的研究提供基准。它发现,截至2025年5月,即使是最好的模型,也可以在常规研究任务上挣扎。例如,查找数字任务要求模型找到一个特定的数据点(例如,历史上有多少FDA医疗设备回忆了多少)。最好的型号Openai O3在其中获得了69%的得分;许多人的成绩不到一半,几个月前引起飞溅的DeepSeek R1不到三分之一。

这些模型在更复杂的任务中的情况甚至更糟,例如找到整个数据集。O3的最佳总分是1.51。作者总结说,我们可以得出结论,在低启发下的边界代理大大表现出色的智能通才研究人员。”

伯克利统计学家斯坦哈特(Steinhardt)于去年的论文合着,他的情况更为积极。当然,AIS有局限性,但是Chatgpt仅在两年半前就引入了,他们已经抓住了人类的高跟鞋。Steinhardt说,我猜想,如果您将最著名的预测想法应用于当今最好的AI系统,那么您的表现要优于最佳的人类预测者。” Steinhardt说。为什么擅长这件事?因为人类确实是非常非常糟糕的预报者。

良好的预测要求您对自己的错误诚实并向他们学习;几乎没有增加您的观点,而不是一次突然和全部改变;并且不要因新闻中的重要内容而分心,而是在您周围讨论,而是要适当地对您收到的所有信息给予适当的重视。

人类在任何方面都特别出色。我们倾向于将我们的信念基于许多主题单一信息,通常是不相关的信息。我们对信息的重量更大更容易回忆或更容易获得,是否更重要。我们对考虑范围甚至专家也很难赋予与数百万美元相比的数十亿人的一千倍。有理由认为AI在所有方面都可以更好。

具有AI预测的世界

超预测,整个通用预测的圣经,于2015年发行。宾夕法尼亚大学的菲利普·泰特洛克(Philip Tetlock)合着的心理学家,基于它研究在此之前已经进行了数十年。

但是,可以公平地说,像我这样的人的友好报道,这一想法是有明确的策略使您能够更好地预测未来的未来。当《纽约时报》边境紧张局势的报告在印度和巴基斯坦,它并没有引用超孔子的观点。白宫并未要求超级遗产对中国如何应对更高的关税做出预测。投资公司没有参加竞标战争,以雇用最佳的超级广场来投射趋势。

这就提出了一个重要的推论问题:如果世界对人类超预报的需求没有很多需求,那么如果机器完成了这一点,这种情况会改变吗?为什么AI超预测会不同?

这种担心可能会说明大多数AI预测工作的相对较小的规模。Google DeepMind,OpenAI,Anthropic和其他领先的实验室优先考虑。一些小型初创公司,例如Futuresearch,Manticai(在元数据比赛中表现最佳),并且闪电杆实验室, 是。据推测,如果大型实验室认为超人的预测是改变经济的大型游戏规则,那么他们会投资更多。当然,这就是一个超级遗产会推测的。

也就是说,有充分的理由认为超人AI预测的预测比当今最好的人类预测更好。人类预报员需要时间,能量和资源来做出良好的预测;他们可以在几分钟之内提出准确的概率估计。从理论上讲,一个好的AI模型可以。

比较一位需要几个星期的研究图书馆员将一堆有用的书籍与互联网黎明之前寄给您的用途,以及今天搜索Google的能力。两者都为您提供有用的输出。好的图书馆员的产出甚至可能是更多的有用。但是,立即获得结果非常重要,并且大大增加了对服务的需求。

避雷针AI的联合创始人本·索特尔(Ben Turtel)想象他的预测AI在某人拥有大量非结构化数据的情况下特别有用,预报员可以迅速评估。以护士或医生为例,试图根据其病历中的分散的笔记来预测患者的轨迹,以及从研究结果与患者属性相关的研究的证据,例如吸烟还是年龄。这是一项艰巨的任务,没有一个食谱。拥有一个可以立即,准确地将患者特异性数据与更广泛证据相结合的模型,并以可能性提供预后,可以大大减轻其工作。

同样,在国外运营的公司经常为据称告诉他们的政治风险顾问付费,例如,现在在约旦工作有多危险,或者 - 在我们在那里工作时,在缅甸发生的政变发生了什么几率。明显的超级人类AI预测可能会有所改变,如果这些咨询可能会有所改变,并且可能会威胁到很多咨询。

但是,如果值得信赖的部分是关键。AI SuperforeCaster,如果没有别的,那么奇怪的实体。想象一下,前往美国的八分代人总统说:“我们用硅制成了甲骨文,现在比中央情报局更好地预测战争了。您需要听听它,而不是您拥有数千年的综合经验的顾问。整个情况令人沮丧。即使您可以证明模型比在某些问题上的人类专家更好,但在相关决策者真正相信并内化了这一事实之前,还有很长的路要走。

现代LLM的黑盒本质是问题的一部分:如果您要求一个预测,我们最终不知道该答案的计算是什么。我们可能会首先看到一个混合时期,在该时期,LLM被要求解释其预测,而决策者只有在解释有意义的情况下才会根据其判断行动。即便如此,在某些情况下,在某些情况下以AI建议采取行动,例如医学,也可以向诉讼开放规避风险的提供者和管理人员。

但是我们可以习惯于感到奇怪。这里的好模型可能是维基百科。在2000年代,该网站很受欢迎,并且质量逐渐提高,但是有很强的规范反对引用或依靠它。任何人都可以编辑;显然,这是不信任的。但是随着时间的流逝,这些规范被侵蚀了,因为很明显,在许多主题上,维基百科比传统来源更准确或更准确。

AI预测机器人可能遵循类似的轨迹。首先,他们很好奇。然后,他们秘密地指望了有罪的荣幸。最后,我们接受他们介绍的东西,他们开始塑造我们所有人做出决定的方式。

关于《为什么人类在预测未来时仍然比AI好得多》的评论


暂无评论

发表评论

摘要

本文讨论了AI在超预测中的潜力,这涉及比人类预报者更准确地预测未来事件。要点包括:1。**当前的限制**:虽然像Chatgpt这样的AI模型表现出了承诺,但它们在逻辑一致性和基于网络的研究技能方面挣扎。2。**比较优势**:由于偏见和认知局限性,人类在预测方面很差;人工智能通过更加一致和客观,可能会胜过它们。3。**实际应用**:在医学预后和政治风险评估等领域,AI的即时和准确的预测可能非常有价值。4。**信任问题**:广泛采用与信任和透明度有关的AI预测面对挑战,尤其是在国家安全等决策角色中。5。**未来轨迹**:与维基百科的演变相似,随着其可靠性的提高,AI预测机器人可能会逐渐获得接受。总体而言,尽管AI超预测具有巨大的潜力,但它在获得关键领域的广泛信任和应用方面也面临障碍。