人工智能对数十亿行文本进行深不可测的运算,处理人类无法梦想解决的问题,但你仍然可以在脑筋急转弯中击败它们。
在阿姆斯特丹自由大学的大厅里,助理教授 Filip Ilievski 正在玩弄人工智能。当然,这是一件严肃的事情,但他的工作看起来更像是儿童游戏,而不是精明的学术研究。伊利耶夫斯基使用人类最先进和超现实的技术,要求人工智能解决谜题。
Ilievski 表示,理解和提高人工智能解决谜题和逻辑问题的能力是改进技术的关键。
“作为人类,我们很容易拥有常识,并在正确的时间应用它并使其适应新问题,”伊利耶夫斯基说,他将自己的计算机科学分支描述为“常识人工智能”。但目前,人工智能“普遍缺乏世界基础”,这使得这种基本的、灵活的推理变得困难。
但是人工智能的研究不仅仅涉及计算机。一些专家认为,比较人工智能和人类处理复杂任务的方式可能有助于解开我们思维的秘密。
人工智能擅长模式识别,“但在需要更抽象思维的问题上,它往往比人类差”,美国卡内基梅隆大学副教授 Xaq Pitkow 说,他研究人工智能和神经科学的交叉点。但在许多情况下,这取决于问题。
让我们从一个很容易解决的问题开始,按照人类的标准,它不符合谜语的资格。2023 年的一项研究要求人工智能解决一系列推理和逻辑挑战。这是一个例子:
Mable 上午 9 点的心率为 75bpm,晚上 7 点的血压为 120/80。她于晚上 11 点去世。中午她还活着吗?
这不是一个棘手的问题。答案是肯定的。但GPT-4 OpenAI当时最先进的模型却没有那么容易。人工智能告诉研究人员:“根据所提供的信息,不可能明确地说梅布尔在中午是否还活着。”当然,从理论上讲,梅布尔可能会在午餐前死亡,并在下午复活,但这似乎有些牵强。为人类得分一分。
Mable 问题需要“时间推理”,即处理时间流逝的逻辑。人工智能模型可能会毫无问题地告诉你中午是在上午 9 点到晚上 7 点之间,但理解这一事实的含义则更为复杂。“总的来说,推理真的很难,”皮特科夫说。“在许多情况下,这个领域超出了人工智能目前的范围。”
关于人工智能的一个奇怪的事实是我们不知道它是如何工作的。毕竟,我们知道人类在高水平上构建了人工智能。大型语言模型 (LLM) 使用统计分析来查找大量文本中的模式。当你提出问题时,人工智能会分析单词、短语和想法之间的关系,并利用这些关系来预测对你的提示最有可能的答案。但像 ChatGPT 这样的工具用来回答任何个人问题的具体联系和计算超出了我们的理解,至少目前是这样。
大脑也是如此:我们对我们的思维如何运作知之甚少。最先进的大脑扫描技术可以向我们展示一个人思考时各个神经元群的放电情况。然而,没有人能确切地说出这些神经元在做什么,或者思维是如何运作的。
皮特科表示,通过协同研究人工智能和思维,科学家们可以取得进展。毕竟,当前一代人工智能使用的是仿照大脑本身结构建模的“神经网络”。没有理由假设人工智能使用与你的思维相同的过程,但更多地了解一种推理系统可以帮助我们理解另一种推理系统。“人工智能正在蓬勃发展,同时我们拥有这种新兴的神经技术,它为我们提供了前所未有的机会来观察大脑内部,”Pitkow 说。
当你看到那些旨在摆脱人类的问题时,人工智能和谜语的问题会变得更加有趣。这是一个经典的例子:
一根球棒和一个球总共花费 1.10 美元。球棒比球贵 1 美元。这个球多少钱?
耶鲁大学管理学院营销学教授、研究谜语的谢恩·弗雷德里克 (Shane Frederick) 表示,大多数人都会冲动地从 1.10 中减去 1.00,并说球棒的价格为 0.10 美元。大多数人都搞错了。球的成本为 0.05 美元。
“问题是人们随意地认可他们的直觉,”弗雷德里克说。“人们认为他们的直觉通常是正确的,在很多情况下他们通常都是正确的。如果你需要质疑自己的每一个想法,你就无法度过一生。”但当涉及到球棒和球的问题以及许多类似的谜语时,你的直觉就会背叛你。Frederick 表示,人工智能可能并非如此。
人类可能会相信自己的直觉,除非有迹象表明他们的第一个想法可能是错误的。“我怀疑人工智能不会有这个问题。它非常擅长从问题中提取相关元素并执行适当的操作,”弗雷德里克说。
人工智能与心灵
本文是《AI vs the Mind》系列的一部分,该系列旨在探索尖端人工智能的局限性,并了解我们的大脑如何在此过程中工作。每篇文章都会让人类专家与人工智能工具进行对抗,以探讨认知能力的不同方面。机器能否比专业喜剧演员写出更好的笑话,或者比哲学家更优雅地解开道德难题?我们希望能找到答案。
然而,球棒和球的问题对于测试人工智能来说是一个糟糕的谜题。它很出名,这意味着经过数十亿行文本训练的人工智能模型可能以前见过它。Frederick 表示,他向人工智能提出了挑战,要求它解决更晦涩的球棒和球问题,并发现机器仍然比人类参与者做得好得多,尽管这不是一项正式的研究。
但是,如果您希望人工智能表现出更像逻辑推理的东西,您需要一个训练数据中没有的全新谜语。在最近的一项研究(预印本中提供)中,伊利耶夫斯基和他的同事开发了一种计算机程序,可以生成原始的谜题,即使用图片、符号和字母的组合来表示单词或短语的谜题。例如,在四个男人的图画旁边用小文字写的“步骤”一词可能意味着“男人的一小步”。
研究人员随后将各种人工智能模型与这些前所未见的谜题进行比较,并用相同的谜题向真人发起挑战。正如预期的那样,人类表现出色,使用图像(而不是文本)进行谜语的准确率为 91.5%。OpenAI 的 GPT-4o 是性能最好的 AI,在最佳条件下正确率达到 84.9%。不错,但智人仍然有优势。
根据 Ilievski 的说法,无论你面对的是人类思想家还是机器,都没有公认的分类法可以分解所有不同类型的逻辑和推理。这使得很难区分人工智能在不同类型问题上的表现。
一项研究将推理分为一些有用的类别。研究人员向 GPT-4 提出了一系列代表 21 种不同推理类型的问题、谜语和文字问题。其中包括简单的算术、计数、处理图表、悖论、空间推理等等。下面是一个基于 1966 年名为 Wason 选择任务的逻辑难题的示例:
桌子上放着七张卡片,每张卡片的一侧都有一个数字,另一侧有一个单色的补丁。卡片的正面显示 50、16、红色、黄色、23、绿色、30。您需要翻哪张卡片来测试以下命题的真实性:如果一张卡片显示的是 4 的倍数,则相反的颜色一面是黄色的?
GPT-4 惨遭失败。AI 说你需要翻开 50 张、16 张、黄牌和 30 张牌。大错特错了。该命题说,可被四整除的牌的另一面是黄色的,但它并没有说只有可被四整除的牌才是黄色的。因此,50和30牌是什么颜色,或者黄牌背面的数字是什么并不重要。另外,按照AI的逻辑,它也应该检查23张牌。正确答案是只需翻转 16、红色和绿色即可。
它还难以解决一些更简单的问题:
假设我在南达科他州中部,我正向下直视德克萨斯州中心。波士顿在我左边还是右边?
如果您不了解美国地理,这将是一个困难的问题,但显然,GPT-4 对各州很熟悉。人工智能知道它面向南,并且知道波士顿位于南达科他州以东,但它仍然给出了错误的答案。GPT-4 不理解左和右的区别。
人工智能也未能通过大多数其他问题。研究人员的结论:“GPT-4 无法推理。”
尽管存在种种缺点,人工智能正在变得越来越好。9 月中旬,OpenAI 发布了 GPT-o1 预览版,这是一个专门针对科学、编码和数学领域较难问题构建的新模型。我打开了 GPT-o1,向它提出了许多与推理研究中相同的问题。它钉牢了沃森的选择篮。人工智能知道你需要左转才能找到波士顿。毫无疑问,我们晚上 11 点去世的可怜朋友 Mable 到中午仍然活着。
人工智能仍然有很多问题需要我们解决。一项测试要求一组美国学生估计去年密歇根州的谋杀案数量,然后向第二组学生提出同样的问题,特别是有关底特律的问题。“第二组给出的数字要大得多,”弗雷德里克说。(对于非美国人来说,底特律位于密歇根州,但这座城市因暴力而声名狼藉。)“忽略不在眼前的信息是一项非常艰巨的认知任务,但从某种意义上说,这就是人工智能的工作原理,”他说。人工智能提取在其他地方学到的信息。
更多这样的:
计算机可以教你有效地道歉吗?
人工智能抢走了他们的工作。现在,他们获得报酬,使其听起来更人性化
这就是为什么最好的系统可能来自人工智能和人类工作的结合;“我们可以发挥机器的优势,”伊利夫斯基说。但当我们想要比较人工智能和人类思维时,重要的是要记住“没有确凿的研究提供证据表明人类和机器以类似的方式解决难题”,他说。换句话说,理解人工智能可能无法让我们直接洞察心灵,反之亦然。
即使学习如何改进人工智能并不能揭示我们大脑隐藏运作的答案,但它也可以给我们一个提示。“我们知道大脑具有与记忆值、运动模式和感官知觉等相关的不同结构,人们正在尝试将越来越多的结构纳入这些人工智能系统中,”皮特科说。“这就是为什么神经科学加人工智能很特别,因为它是双向的。对大脑的更深入的了解可以带来更好的人工智能。对人工智能的更深入的了解可以带来对大脑的更好的理解。”
Thomas Germain 是 BBC 的高级科技记者。十年来的大部分时间里,他涵盖了人工智能、隐私和互联网文化的最广泛领域。您可以在 X 和 TikTok @thomasgermain 上找到他。
--
如需了解更多技术新闻和见解,请订阅我们的 Tech Decoded 时事通讯,而“基本列表”每周两次向您的收件箱提供精心挑选的功能和见解。