作者:Sigal Samuel
AI世界的发展如此之快,以至于在一系列闪亮的新产品中很容易丢失。Openai宣布一个,然后是中国初创公司DeepSeek发布了一个, 然后Openai立即推出另一个。每个都很重要,但是过多地关注其中的任何一个,您会错过过去六个月中真正的大故事。
最大的故事是:AI公司现在声称他们的模型能够真正的推理 - 当我们想解决问题时,我和我做的那种思维类型。
最大的问题是:真的吗?
赌注很高,因为答案将告知您从妈妈到政府的每个人应该如何向AI寻求帮助。
如果您与Chatgpt一起玩耍,您就会知道它旨在为您的问题提供快速答案。但是,最先进的推理模型(例如Openai s o1或DeepSeek r1)的设计是在响应之前一会儿思考,通过分解大问题陷入较小的问题,并试图逐步解决它们。行业称,经过思考的推理。
这些模型产生了一些令人印象深刻的结果。他们可以解决棘手的逻辑难题,ACE数学测试,并在第一次尝试时编写完美的代码。然而,他们在真正容易的问题上也出色地失败了。
人工智能专家在如何解释这一点上被撕裂。怀疑论者将其作为证据,表明推理模型确实是真正的推理。信徒们坚持认为,这些模型确实在做一些推理,尽管目前可能不像人类的推理那样灵活,但它正在到达那里。
那么,谁对?
最好的答案将使AI的强烈怀疑论者和真正的信徒都感到不安。
让我们退后一步。反正推理到底是什么?
像Openai这样的人工智能公司正在使用该术语推理意味着他们的模型将问题分解为较小的问题,他们逐步解决问题,最终得出了更好的解决方案。
但这是对推理的定义要比很多人想到的要窄得多。尽管科学家仍在试图了解推理如何在人类脑中起作用,但他们同意实际上有很多不同类型的推理。
有推论性的推理,您可以从一般性声明开始,然后使用它来得出特定的结论。在归纳推理中,您使用特定的观察结果来进行更广泛的概括。而且,有类比推理,因果推理,常识推理 - 可以说,推理不仅仅是一件事!
现在,如果有人解决了一个艰难的数学问题,并使您有机会逐步思考一下,那么您会做得更好,而不是必须脱离顶部的答案你的头。因此,能够进行审议的思想推理绝对是有帮助的,这可能是使任何真正困难的事情都是必要的组成部分。然而,这并不是全部推理。
我们在现实世界中非常关心的推理的一个特征是能够察觉到有限的数据或经验中的规则或模式,并将此规则或模式应用于新的,看不见的情况,梅兰妮写道米切尔(Mitchell)是圣达菲研究所(Santa Fe Institute)的教授,以及她的合着者有关AI推理能力的论文。甚至很小的孩子也很擅长从几个例子中学习抽象规则。
换句话说,一个孩子可以概括。可以吗?
许多辩论都围绕着这个问题。怀疑论者非常,很好,对AI的概括能力持怀疑态度。他们认为还有其他事情正在发生。
这是一种元模拟,香农·瓦洛(Shannon Vallor)爱丁堡大学的技术哲学家告诉我,9月Openai s O1何时发布。
她的意思是,虽然像chatgpt这样的较旧模型模仿了培训数据中的人写的陈述,但像O1一样的新模型人类参与的过程提出这些陈述。换句话说,她认为这不是真正的推理。O1很容易使它听起来像是推理的。毕竟,它的培训数据泛滥成灾,从分析症状来决定诊断的医生到评估证据以作出判决的法官。
此外,当Openai构建O1型号时,它对以前的ChatGpt模型进行了一些更改,但并未大修该体系结构,而Chatgpt去年正在阐述简单的问题,例如回答一个问题如何让一只男人和山羊越过河流以一种荒谬的方式。Vallor问,为什么我们会认为O1正在做一个全新而神奇的事情 - 尤其是考虑到这也是一个简单的问题呢?她说,在失败的情况下,您会发现,对我来说,这是什么根本没有推理的证据。”
米切尔(Mitchell)对O3 Openai的最新推理模式的表现感到惊讶,该模型在去年年底宣布为O1的继任者在测试上进行。但是她也惊讶于它用来解决问题的计算。我们不知道对所有计算做什么,因为Openai对引擎盖下的情况不透明。
她实际上对他们大声思考这些问题的人进行了自己的实验,他们不会大声考虑计算时间。”我。他们只是说几句句子,然后说:“是的,我明白了它的工作原理,因为他们使用了某些概念。我不知道O3是否正在使用这些概念。
米切尔(Mitchell)说,没有公司的透明度,我们可以确定该模型正在将一个大问题分解为步骤,并根据Openai所说,由于这种方法的结果,因此获得了更好的总体答案。
她指着一张纸让我思考点在研究人员没有获得模型将问题分解为中级步骤的地方;相反,他们只是告诉模型生成点。这些点完全毫无意义。更好地解决问题。这表明当模型生成中间步骤时 - 是否像这样的短语,请逐步考虑这个问题。步骤不一定意味着您认为这样做的类似人类的推理。
我认为很多事情更像是一袋启发式方法米切尔告诉我,而不是推理模型。启发式方法是一种精神捷径 - 通常可以让您猜测问题的正确答案,而不是通过实际思考。
这是一个经典示例:研究人员训练了AI视觉模型,以分析皮肤癌的照片。起初,似乎该模型确实在弄清楚摩尔是否是恶性的,就像脸红一样。但是,事实证明,在其训练数据中,恶性痣的照片通常包含统治者,因此该模型刚刚学会了将统治者的存在作为决定恶性肿瘤的启发式。
怀疑的人工智能研究人员认为,最先进的模型可能正在做类似的事情:他们似乎是通过数学问题来推理的,但实际上他们只是在混音记忆的信息和启发式方法。
其他专家对推理模型更看好。Ryan Greenblatt,首席科学家红木研究这是一个旨在减轻高级人工智能风险的非营利组织,认为这些模型显然是在采取某种形式的推理。
他们这样做的方式不概括也是如此像人类的方式一样,他们比人类更依赖记忆和知识。但是,他们仍然在做这件事。”这根本没有概括。
毕竟,这些模型能够解决他们经常受到非常令人印象深刻的训练的例子之外的问题。对于Greenblatt来说,最简单的解释是他们确实如何做一些推理。
无论我们谈论推理模型还是像Chatgpt这样的早期模型,有关启发式方法的观点都可以削减两种方式。考虑一下一个男人,船和山羊去年有许多怀疑论者嘲笑Openai的提示:
这是怎么回事?格林布拉特说,模型搞砸了,因为这个提示实际上是一个经典的逻辑难题可以追溯到几个世纪这在培训数据中会出现很多次。在河流交叉难题的某些配方中,一个有狼,山羊和白菜的农民必须乘船越过。船只一次只能携带农民和一件物品,但是如果在一起,狼会吃掉山羊,否则山羊会吃菜单,因此挑战是在不食用的情况下遍及所有东西。这解释了模型在其反应中提到的白菜。该模型将立即认识到难题。
我最好的猜测是,这些模型有一种令人难以置信的强烈冲动,就像,这是这个难题!我知道这个难题是什么!我之所以这样做,是因为在培训数据中表现出色。这就像一个学识渊博的启发式方法。”格林布拉特说。含义?不是这样可以解决它。在许多情况下,如果您说这是一个问题,然后就提出问题,该模型通常会完全很好。”
他指出,人类一直以同样的方式失败。如果您只是花了一个月的时间研究色彩理论,从互补色到不同色调的心理影响到文艺复兴时期绘画中某些颜料的历史意义,然后进行测验询问,为什么这位艺术家在这片景观绘画中绘制了天蓝色?...好吧,您可能会被欺骗写一个不必要的复杂答案!也许您会写关于蓝色如何代表神圣天堂的方式,或者特定的阴影如何暗示这幅画是在清晨完成的,这象征着重生的绘画……实际上,答案是简单的:因为天空是蓝色的!
Ajeya Cotra一位公开慈善事业的高级分析师研究了AI的风险,在这一点上同意了Greenblatt。而且,她谈到最新的模型时说:“我认为他们在人类会称呼推理任务的这一任务中确实变得更好。”
她没有质疑模型正在做一些元模拟。但是,当怀疑论者说这只是在做元模拟时,她解释说,我认为这只是有争议的部分。感觉他们经常想暗示的是 - 因此,这不会对世界或人为的超级智能产生重大影响。”这就是我的争议。
她说,看看为什么您会教大学物理课。您有不同类型的学生。一个是一个彻头彻尾的作弊者:他只是看着书的后面寻求答案,然后写下来。另一个学生是如此富裕,以至于他甚至不需要考虑方程式。他了解物理学在如此深,直觉,爱因斯坦般的水平上,可以飞出正确的方程式。所有其他学生都位于中间:他们记住了25个方程式的列表,并试图找出在哪种情况下应用哪个方程式。
科特拉告诉我,像大多数学生一样,AI模型将记忆与一些推理配对。
AI模型就像一个不是很聪明但超人勤奋的学生,因此他们还没有记住25个方程式,他们记住了500个方程式,包括可能出现,可能出现的怪异情况的方程式她说。他们将很多记忆与一点点的推理搭配在一起,也就是说,弄清楚方程组合适用于问题。那只带您很远!乍一看,他们似乎和具有深刻的直觉理解的人一样令人印象深刻。
当然,当您看起来更加困难时,您仍然可以找到他们的500个方程式恰好无法覆盖的孔。但这并不意味着发生了零推理。
换句话说,这些模型既不是独家推理,也不只是仅仅背诵。
科特拉说。我认为人们被那样抛弃了,因为他们想把它放在一个营地或另一个营地中。他们想说这只是记住,或者想说这是真正的推理。但事实是,仅是推理深度的一个范围。
研究人员已经提出了一个嗡嗡的术语来描述这种推理模式:锯齿状的情报。它是指一个奇怪的事实,即计算机科学家Andrej Karpathy解释了,最先进的AI模型都可以执行极其令人印象深刻的任务(例如,解决复杂的数学问题),同时在解决一些非常愚蠢的问题上。”
像这样想象。如果人类的智能看起来像云柔软的边缘的云,人工智能就像是尖峰云,彼此相邻巨大的山峰和山谷。在人类中,许多解决问题的能力彼此高度相关,但是AI在一件事上可能很棒,而且对我们(对我们来说)的另一件事似乎并不相距遥远。
请注意,这是所有的亲戚。
格林布拉特告诉我,与人类擅长的东西相比,模型非常锯齿。但是我认为对人类的索引有点令人困惑。从模型的角度来看,那是,那些人类如此锯齿!他们在下一步的预测上是如此糟糕!尚不清楚AI的某种客观意义更为锯齿。
对推理模型的训练听起来像是人类推理,这一事实使我们被剥夺了将AI智能与人类智能进行比较的事实。但是,思考AI的最佳方法可能不比人类或笨蛋更聪明,而是人类的不同。
无论如何,科特拉(Cotra)预计迟早是AI智能会如此庞大,以至于它可以包含所有人类智能,然后将其包含在其中。
我想,当AI系统确实比人类专家更好时,会出现什么风险?当它们可能仍然被锯齿状时,他们的全部锯齿智能涵盖了所有人类的智力等等?”她说。我一直在寻找那个时间点并为此做准备。
就目前而言,对于我们大多数人来说,实用的结果是:请记住AI是什么,并且对 - 不明智并相应地使用它。
最好的用例是您很难提出解决方案,但是一旦您从AI获得解决方案,您就可以轻松地检查以查看是否正确。编写代码是一个完美的例子。另一个示例是制作一个网站:您可以看到AI产生的内容,如果您不喜欢它,请让AI重做它。
在其他域中,尤其是没有客观的正确答案或赌注很高的域名 - 您希望更犹豫使用AI。您可能会从中得到一些最初的建议,但是不会放太多库存,尤其是在您看来对您看来的话。一个例子是征求有关如何应对道德困境的建议。您可能会看到该模型在您中引起了什么想法,而不相信它为您提供最终答案。
科特拉说,越多的事情是模糊和判断力的。”