作者:By Stephen Ornes November 8, 2024
2023 年 2 月,谷歌的人工智能聊天机器人 Bard 声称詹姆斯·韦伯太空望远镜拍摄到了太阳系外第一颗行星的图像。但事实并非如此。当普渡大学的研究人员向 OpenAI 的 ChatGPT 询问 500 多个编程问题时,超过一半的答案不准确。
这些错误很容易被发现,但专家担心,随着模型变得越来越大并回答更复杂的问题,他们的专业知识最终将超过大多数人类用户。如果这样的“超人”系统成为现实,我们如何才能相信他们所说的呢?“这是关于你试图解决超出你实际能力的问题,”说朱利安·迈克尔,纽约大学数据科学中心的计算机科学家。– 如何监督系统成功执行您无法完成的任务? –
一种可能性既简单又古怪:让两个大型模型争论给定问题的答案,留下一个更简单的模型(或人类)来识别更准确的答案。从理论上讲,这个过程允许两个特工在彼此的论点中找出漏洞,直到法官有足够的信息来辨别真相。该方法于六年前首次提出,但今年早些时候发布了两组研究结果 –二月份的一个来自人工智能初创公司 Anthropic 和七月第二次来自 Google DeepMind – 提供了第一个经验证据,证明两个法学硕士之间的辩论有助于法官(人类或机器)识别真相。
“这些作品的阐述和贡献非常重要,”迈克尔说。它们还提供了新的探索途径。举一个例子,迈克尔和他的团队九月报道训练人工智能辩手获胜——而不仅仅是像过去两项研究那样进行交谈——进一步提高了非专家法官识别事实的能力。
构建值得信赖的人工智能系统是一个更大目标的一部分,这个目标称为结盟,其重点是确保人工智能系统与其人类用户具有相同的价值观和目标。如今,一致性依赖于人类反馈——人们对人工智能的评判。但人类反馈可能很快就不足以确保系统的准确性。近年来,研究人员越来越多地呼吁采用“可扩展监督”的新方法,这是一种即使在超人系统执行人类无法执行的任务时也能确保真相的方法。
多年来,计算机科学家一直在考虑可扩展的监督。2018 年,在法学硕士变得像今天这样规模庞大、无处不在之前,辩论成为了一种可能的方法。它的建筑师之一是杰弗里·欧文现任英国人工智能安全研究所首席科学家。他于 2017 年加入 OpenAI,比该公司发布 GPT-2 早了两年,GPT-2 是最早受到广泛关注的法学硕士之一,希望最终致力于使人工智能系统与人类目标保持一致。他说,他们的目标是安全,“试图询问人类想要什么,然后[让模型]做到这一点。”
他的同事保罗·克里斯蒂安诺(Paul Christiano)现任美国人工智能安全研究所的安全负责人,他一直在研究如何将复杂的问题分解为更小、更简单的问题,以便语言模型可以诚实地回答,从而解决这个问题。“辩论成为了该方案的一个变体,”欧文说,连续的争论有效地将一个较大的问题分解为可以被判断为准确的较小的部分。
Irving 和 Christiano 与 Dario Amodei(他于 2021 年与妹妹 Daniela 共同创立了 Anthropic)合作,在自然语言系统中使用辩论。(由于这是在 GPT-2 之前,语言模型太弱,无法进行实证辩论,因此他们专注于概念论证和玩具实验。)这个想法很简单:向两个相似的强大 AI 模型副本提出问题让他们找出答案,让法官相信他们是对的。欧文将其比作自我对弈,这有助于人工智能系统改进其在国际象棋和围棋等游戏中的策略。
三人设计了涉及图像和文本问题的基本游戏。在其中一个模型中,两个人工智能模型都可以访问描绘数字 5 的同一张图像。一个模型认为该图像实际上是数字 5;另一个模型则认为该图像实际上是数字 5;另一个模型则认为该图像实际上是数字 5。另一个则认为这是 6。竞争模型轮流向法官展示更多像素,这是一个较弱的模型。六轮过后,裁判猜中数字的正确率达到 89%。当显示随机像素时,法官只有大约 59% 的时间猜对。
这个简单的例子,描述于2018年10月,表明辩论可以带来优势。但作者指出了一些警告。例如,人类倾向于相信他们想听到的东西,而在现实世界中,这种本能可能会凌驾于辩论的好处之上。此外,有些人可能比其他人更擅长判断辩论——也许语言模型也是如此?
作者还呼吁更多地了解人类的思维方式。在 2019 年散文欧文和现就职于 Anthropic 的阿曼达·阿斯克尔认为,如果人工智能系统要与人类价值观保持一致,我们需要更好地了解人类如何按照我们的价值观行事。他们认为,人工智能研究需要纳入更多关于人类如何做出决策并得出关于真假的结论的工作。如果研究人员不知道人们如何判断争论或如何得出真相,他们就无法弄清楚如何发起辩论。
一小部分计算机科学家和语言学家很快开始寻找辩论的好处。他们发现了一些没有帮助的例子。一个2022年学习给人类一个困难的多项选择测试,并让法学硕士为不同的答案提供论据。但听到人工智能生成的论点的人在测试中的表现并不比那些根本没有与法学硕士互动的人更好。
即使法学硕士不能帮助人类,但有迹象表明它们可以帮助语言模型。在 2023 年的一篇论文中,研究人员报道当法学硕士的多个副本被允许辩论并集中在一个答案上时,它们比说服法官更准确,更频繁。今年的两个结果是首批实证检验之一,表明法学硕士之间的辩论在用另一个信息较少的模型来判断时是可以发挥作用的。
人择小组向两位专家模型展示了一个科幻故事的摘录,然后提出了理解问题。每个模型都提供了一个答案,并在多轮的过程中捍卫自己的答案并反对另一个模型。然后法官将评估这些论点并决定谁是正确的。在某些情况下,法官可以查阅经过验证的原文引文;在另一些情况下,情况并非如此。
当法学硕士接受过有说服力的专门培训时,非专业法学硕士评委在 76% 的情况下得出了正确答案。相比之下,在无辩论的测试中,非人类评委的回答正确率只有 54%,这个结果仅比抛硬币好一点点。
“他们基本上让模型足够擅长辩论,你可以开始看到一些结果,”迈克尔说。
两个月后,Google DeepMind 团队报告了一项涉及各种任务和限制的类似实验,例如让语言模型选择自己在辩论中的立场。这些任务包括多项选择阅读理解问题、有关维基百科文章的问题以及有关大学数学和科学主题的是/否问题。有些问题涉及图像和文本。
在所有任务和实验设置中,争论总是会带来更高的准确性。这是令人鼓舞的,而且并非完全出乎意料。“原则上,我们预计辩论在大多数任务上都会优于这些基线,”说扎卡里·肯顿,谁是 DeepMind 研究的共同领导者。“这是因为法官可以在辩论中看到争论的双方,因此应该了解更多信息。”
通过这两项研究,研究人员首次表明,辩论可能会对其他人工智能系统判断法学硕士声明的准确性产生影响。这是令人兴奋的一步,但在我们能够通过设置数字辩手相互对抗来可靠地受益之前,还有大量工作要做。
第一个问题是法学硕士对其输入的细节和论点的结构有多敏感。肯顿说,法学硕士的行为很容易受到无关紧要的特征的影响,例如哪位辩手拥有最后的发言权。“这可能会导致关于在某些任务上没有超越这些简单基线的争论。”
这只是开始。人择小组发现的证据表明,人工智能法官可能会被较长的论点所左右,即使它的说服力较差。其他测试表明,模型可以显示出所谓的阿谀奉承偏见,即法学硕士为了取悦用户而放弃正确答案的倾向。– 很多人都有这样的经历:模型会表达一些东西,如果你说“不,那是错误的”,它会说,“哦,我很抱歉”,”迈克尔说。– 模型说:“哦,你是对的。二加二等于五。
还有一个大局:牛津互联网研究所的研究人员指出,虽然新论文提供了法学硕士可能会引导彼此走向准确性的经验证据,但结果可能并不广泛适用。桑德拉·瓦赫特研究道德和法律的人指出,测试的答案显然是正确或错误的。“对于像数学这样的东西来说可能是这样,因为那里有一个公认的基本事实,”她说,但在其他情况下,“它”非常复杂,或者非常灰色,或者你需要很多细微差别。最终,这些模型本身仍然没有被完全理解,因此很难相信它们是潜在的法官。
最后,欧文指出,从事辩论的研究人员需要回答更广泛的问题。辩论要求辩手比法官表现得更好,但“更好”取决于任务。“辩手们在哪个维度上了解得更多?”他问道。在这些测试中,这就是知识。在需要推理的任务中,或者例如如何给房子布线时,这个维度可能会有所不同。
欧文表示,寻找可扩展的监督解决方案是目前人工智能安全领域面临的一项重大挑战。
因此,拥有一种即使在某些情况下也有效的方法的经验证据是令人鼓舞的。“这些都是朝着正确方向迈出的一步,”欧文说。“可能是我们继续做这些实验,我们不断得到积极的结果,而且随着时间的推移,它们会变得更强。”