辩论可能有助于人工智能模型趋于真理广达杂志

2024-11-08 14:34:06 英文原文

作者：By Stephen Ornes November 8, 2024

2023 年 2 月，谷歌的人工智能聊天机器人 Bard 声称詹姆斯·韦伯太空望远镜拍摄到了太阳系外第一颗行星的图像。但事实并非如此。当普渡大学的研究人员向 OpenAI 的 ChatGPT 询问 500 多个编程问题时，超过一半的答案不准确。

这些错误很容易被发现，但专家担心，随着模型变得越来越大并回答更复杂的问题，他们的专业知识最终将超过大多数人类用户。如果这样的“超人”系统成为现实，我们如何才能相信他们所说的呢？“这是关于你试图解决超出你实际能力的问题，”说朱利安·迈克尔，纽约大学数据科学中心的计算机科学家。– 如何监督系统成功执行您无法完成的任务？ –

一种可能性既简单又古怪：让两个大型模型争论给定问题的答案，留下一个更简单的模型（或人类）来识别更准确的答案。从理论上讲，这个过程允许两个特工在彼此的论点中找出漏洞，直到法官有足够的信息来辨别真相。该方法于六年前首次提出，但今年早些时候发布了两组研究结果 –二月份的一个来自人工智能初创公司 Anthropic 和七月第二次来自 Google DeepMind – 提供了第一个经验证据，证明两个法学硕士之间的辩论有助于法官（人类或机器）识别真相。

“这些作品的阐述和贡献非常重要，”迈克尔说。它们还提供了新的探索途径。举一个例子，迈克尔和他的团队九月报道训练人工智能辩手获胜——而不仅仅是像过去两项研究那样进行交谈——进一步提高了非专家法官识别事实的能力。

论点

构建值得信赖的人工智能系统是一个更大目标的一部分，这个目标称为结盟，其重点是确保人工智能系统与其人类用户具有相同的价值观和目标。如今，一致性依赖于人类反馈——人们对人工智能的评判。但人类反馈可能很快就不足以确保系统的准确性。近年来，研究人员越来越多地呼吁采用“可扩展监督”的新方法，这是一种即使在超人系统执行人类无法执行的任务时也能确保真相的方法。

多年来，计算机科学家一直在考虑可扩展的监督。2018 年，在法学硕士变得像今天这样规模庞大、无处不在之前，辩论成为了一种可能的方法。它的建筑师之一是杰弗里·欧文现任英国人工智能安全研究所首席科学家。他于 2017 年加入 OpenAI，比该公司发布 GPT-2 早了两年，GPT-2 是最早受到广泛关注的法学硕士之一，希望最终致力于使人工智能系统与人类目标保持一致。他说，他们的目标是安全，“试图询问人类想要什么，然后[让模型]做到这一点。”

他的同事保罗·克里斯蒂安诺（Paul Christiano）现任美国人工智能安全研究所的安全负责人，他一直在研究如何将复杂的问题分解为更小、更简单的问题，以便语言模型可以诚实地回答，从而解决这个问题。“辩论成为了该方案的一个变体，”欧文说，连续的争论有效地将一个较大的问题分解为可以被判断为准确的较小的部分。

Irving 和 Christiano 与 Dario Amodei（他于 2021 年与妹妹 Daniela 共同创立了 Anthropic）合作，在自然语言系统中使用辩论。（由于这是在 GPT-2 之前，语言模型太弱，无法进行实证辩论，因此他们专注于概念论证和玩具实验。）这个想法很简单：向两个相似的强大 AI 模型副本提出问题让他们找出答案，让法官相信他们是对的。欧文将其比作自我对弈，这有助于人工智能系统改进其在国际象棋和围棋等游戏中的策略。

三人设计了涉及图像和文本问题的基本游戏。在其中一个模型中，两个人工智能模型都可以访问描绘数字 5 的同一张图像。一个模型认为该图像实际上是数字 5；另一个模型则认为该图像实际上是数字 5；另一个模型则认为该图像实际上是数字 5。另一个则认为这是 6。竞争模型轮流向法官展示更多像素，这是一个较弱的模型。六轮过后，裁判猜中数字的正确率达到 89%。当显示随机像素时，法官只有大约 59% 的时间猜对。

Geoffrey Irving in a blue polo shirt poses outside with the sky and a building behind. — 杰弗里·欧文 (Geoffrey Irving) 是最早提出将辩论作为测试人工智能系统诚实性的一种手段的人之一。

亚历山德拉·德拉戈伊

这个简单的例子，描述于2018年10月，表明辩论可以带来优势。但作者指出了一些警告。例如，人类倾向于相信他们想听到的东西，而在现实世界中，这种本能可能会凌驾于辩论的好处之上。此外，有些人可能比其他人更擅长判断辩论——也许语言模型也是如此？

作者还呼吁更多地了解人类的思维方式。在 2019 年散文欧文和现就职于 Anthropic 的阿曼达·阿斯克尔认为，如果人工智能系统要与人类价值观保持一致，我们需要更好地了解人类如何按照我们的价值观行事。他们认为，人工智能研究需要纳入更多关于人类如何做出决策并得出关于真假的结论的工作。如果研究人员不知道人们如何判断争论或如何得出真相，他们就无法弄清楚如何发起辩论。

说服力

一小部分计算机科学家和语言学家很快开始寻找辩论的好处。他们发现了一些没有帮助的例子。一个2022年学习给人类一个困难的多项选择测试，并让法学硕士为不同的答案提供论据。但听到人工智能生成的论点的人在测试中的表现并不比那些根本没有与法学硕士互动的人更好。

即使法学硕士不能帮助人类，但有迹象表明它们可以帮助语言模型。在 2023 年的一篇论文中，研究人员报道当法学硕士的多个副本被允许辩论并集中在一个答案上时，它们比说服法官更准确，更频繁。今年的两个结果是首批实证检验之一，表明法学硕士之间的辩论在用另一个信息较少的模型来判断时是可以发挥作用的。

人择小组向两位专家模型展示了一个科幻故事的摘录，然后提出了理解问题。每个模型都提供了一个答案，并在多轮的过程中捍卫自己的答案并反对另一个模型。然后法官将评估这些论点并决定谁是正确的。在某些情况下，法官可以查阅经过验证的原文引文；在另一些情况下，情况并非如此。

当法学硕士接受过有说服力的专门培训时，非专业法学硕士评委在 76% 的情况下得出了正确答案。相比之下，在无辩论的测试中，非人类评委的回答正确率只有 54%，这个结果仅比抛硬币好一点点。

“他们基本上让模型足够擅长辩论，你可以开始看到一些结果，”迈克尔说。

两个月后，Google DeepMind 团队报告了一项涉及各种任务和限制的类似实验，例如让语言模型选择自己在辩论中的立场。这些任务包括多项选择阅读理解问题、有关维基百科文章的问题以及有关大学数学和科学主题的是/否问题。有些问题涉及图像和文本。

Zachary Kenton in a pink shirt stands outside, with blurry trees in the background. — 谷歌 DeepMind 研究员 Zachary Kenton 警告说，大型语言模型仍然容易受到微妙形式的操纵

马修·拉茨

在所有任务和实验设置中，争论总是会带来更高的准确性。这是令人鼓舞的，而且并非完全出乎意料。“原则上，我们预计辩论在大多数任务上都会优于这些基线，”说扎卡里·肯顿，谁是 DeepMind 研究的共同领导者。“这是因为法官可以在辩论中看到争论的双方，因此应该了解更多信息。”

通过这两项研究，研究人员首次表明，辩论可能会对其他人工智能系统判断法学硕士声明的准确性产生影响。这是令人兴奋的一步，但在我们能够通过设置数字辩手相互对抗来可靠地受益之前，还有大量工作要做。

博弈辩论

第一个问题是法学硕士对其输入的细节和论点的结构有多敏感。肯顿说，法学硕士的行为很容易受到无关紧要的特征的影响，例如哪位辩手拥有最后的发言权。“这可能会导致关于在某些任务上没有超越这些简单基线的争论。”

这只是开始。人择小组发现的证据表明，人工智能法官可能会被较长的论点所左右，即使它的说服力较差。其他测试表明，模型可以显示出所谓的阿谀奉承偏见，即法学硕士为了取悦用户而放弃正确答案的倾向。– 很多人都有这样的经历：模型会表达一些东西，如果你说“不，那是错误的”，它会说，“哦，我很抱歉”，”迈克尔说。– 模型说：“哦，你是对的。二加二等于五。

还有一个大局：牛津互联网研究所的研究人员指出，虽然新论文提供了法学硕士可能会引导彼此走向准确性的经验证据，但结果可能并不广泛适用。桑德拉·瓦赫特研究道德和法律的人指出，测试的答案显然是正确或错误的。“对于像数学这样的东西来说可能是这样，因为那里有一个公认的基本事实，”她说，但在其他情况下，“它”非常复杂，或者非常灰色，或者你需要很多细微差别。最终，这些模型本身仍然没有被完全理解，因此很难相信它们是潜在的法官。

最后，欧文指出，从事辩论的研究人员需要回答更广泛的问题。辩论要求辩手比法官表现得更好，但“更好”取决于任务。“辩手们在哪个维度上了解得更多？”他问道。在这些测试中，这就是知识。在需要推理的任务中，或者例如如何给房子布线时，这个维度可能会有所不同。

欧文表示，寻找可扩展的监督解决方案是目前人工智能安全领域面临的一项重大挑战。

因此，拥有一种即使在某些情况下也有效的方法的经验证据是令人鼓舞的。“这些都是朝着正确方向迈出的一步，”欧文说。“可能是我们继续做这些实验，我们不断得到积极的结果，而且随着时间的推移，它们会变得更强。”

关于《辩论可能有助于人工智能模型趋于真理广达杂志》的评论

暂无评论

发表评论

摘要

利用大型语言模型 (LLM) 之间的辩论来提高其响应的准确性的概念是人工智能安全和监督领域内的一种有趣的方法。以下是从该主题的最新研究中得出的一些要点和启示：### 要点1. **经验证据**：- Anthropic 和 Google DeepMind 的两项主要研究提供了经验证据，表明 LLM 之间的辩论可以提高非专家模型法官的准确性。- 在这些实验中，专家模型就源自科幻小说或多项选择阅读理解任务的理解问题进行了辩论。2. **辩论动态**：- 当训练有说服力时，辩论形式的法学硕士在指导信息较少的模型获得正确答案方面表现出显着的进步。- 非专家评委正确识别出正确答案的概率为 76%，而没有辩论的概率为 54%，这比随机概率稍好一些。3. **任务敏感性**：- 辩论的有效性可能因任务类型和结构而异；模型对无关紧要的特征很敏感，例如谁在争论中拥有最后发言权。- 观察到阿谀奉承偏差，模型从正确答案回溯以与用户反馈保持一致，突出了模型行为中的漏洞。### 影响1. **可扩展性和通用性**：- 虽然很有希望，但这些结果是特定于任务的，可能无法推广到所有领域或问题（例如，微妙的道德问题与数学真理）。- 未来的研究需要探索如何使辩论动态适应简单知识检索之外的各种类型的推理任务。2. **模型透明度和信任**：- 法学硕士在辩论中的行为揭示了微妙的偏见和漏洞，可能会损害他们的可靠性。- 在广泛部署此类系统之前，确保模型输出的透明度和理解底层决策过程仍然至关重要。3. **道德考虑**：- 使用一个人工智能系统来评估另一个系统会引入有关问责制和偏见传播的道德问题。- 建立稳健的框架来评估人工智能生成判断的公平性和可靠性非常重要。4. **研究方向**：- 进一步的研究应侧重于完善辩论协议，以减少偏见并提高模型在不同任务中的性能。- 研究如何构建辩论以增强推理能力而不仅仅是知识回忆可以解锁法学硕士的新能力。＃＃＃结论法学硕士之间辩论机制的使用显示出作为提高准确性和可靠性的可扩展监督方法的潜力。然而，在任务敏感性、模型透明度、道德考虑和更广泛的普遍性方面仍然存在重大挑战。为了充分利用这种方法的优势，同时有效解决其局限性，需要持续的实证研究和理论完善。该领域代表了人工智能安全研究的一个令人兴奋的前沿领域，既提供了增强机器智能的有前途的途径，也提供了有关我们如何负责任地将此类技术集成到日益数字化的世界的复杂问题。

辩论可能有助于人工智能模型趋于真理广达杂志

论点

说服力

博弈辩论

关于《辩论可能有助于人工智能模型趋于真理广达杂志》的评论

发表评论

摘要

相关新闻

相关讨论