谷歌 DeepMind 有一种新方法来观察人工智能的“思维”

2024-11-14 10:00:00 英文原文

作者:By Scott J Mulliganarchive page

人工智能带来了突破药物发现机器人技术并且正在彻底改变我们与机器和网络交互的方式。唯一的问题是我们不知道它到底是如何工作的,或者为什么它工作得这么好。我们有一个不错的想法,但细节太复杂,无法解析。这是一个问题:它可能导致我们在医学等高度敏感的领域部署人工智能系统,却没有意识到它的工作原理可能存在严重缺陷。

谷歌 DeepMind 的一个研究机械可解释性的团队一直在研究新方法,让我们能够深入了解其本质。7月底发布了杰玛·斯科普,一种帮助研究人员了解人工智能生成输出时发生的情况的工具。我们希望,如果我们更好地了解人工智能模型内部发生的事情,我们将能够更有效地控制其输出,从而在未来带来更好的人工智能系统。

“我希望能够深入了解一个模型,看看它是否具有欺骗性,”Google DeepMind 机械解释团队的负责人 Neel Nanda 说道。“看来能够读懂模特的心思应该会有所帮助。”

机械可解释性,也称为“mech interp”,是一个新的研究领域,旨在了解神经网络的实际工作原理。目前,基本上,我们以大量数据的形式将输入放入模型中,然后在训练结束时获得一堆模型权重。这些是决定模型如何做出决策的参数。我们对输入和模型权重之间发生的情况有一些了解:本质上,人工智能正在寻找数据中的模式并从这些模式中得出结论,但这些模式可能非常复杂,而且通常人类很难解释。

这就像老师在考试中检查复杂数学问题的答案。学生(在本例中为人工智能)写下了正确答案,但作业看起来像一堆波浪线。这个例子假设人工智能总是得到正确的答案,但这并不总是正确的;人工智能学生可能发现了一个不相关的模式,但它认为这是有效的。例如,当前的一些人工智能系统会给你9.11大于9.8的结果。在机械解释领域开发的不同方法开始对可能发生的事情提供一点线索,从本质上理解那些弯曲的线条。

“机械可解释性的一个关键目标是尝试对这些系统内部的算法进行逆向工程,”南达说。– 我们给模型一个提示,比如“写一首诗”,然后它会写出一些押韵的诗句。它执行此操作的算法是什么?我们很想了解它。”

为了在其 AI 模型 Gemma 中查找代表更大概念的特征或数据类别,DeepMind 在其每个层上运行了一种称为“稀疏自动编码器”的工具。您可以将稀疏自动编码器视为放大这些层并让您查看其细节的显微镜。例如,如果您向 Gemma 提示有关吉娃娃的信息,它将触发“狗”功能,点亮模型对“狗”的了解。它被视为“稀疏”的原因是它限制了所使用的神经元数量,从根本上推动了数据的更有效和更通用的表示。

稀疏自动编码器的棘手部分是决定你想要获得的粒度。再想想显微镜。你可以将某些东西放大到极致,但这可能会使你所看到的东西无法被人类解释。但如果你把镜头拉得太远,你可能会限制你能看到和发现的有趣的事情。 

DeepMind 的解决方案是运行不同大小的稀疏自动编码器,改变他们希望自动编码器找到的特征数量。DeepMind 研究人员的目标并不是自己彻底分析结果。Gemma 和自动编码器是开源的,因此该项目的目的更多的是激励感兴趣的研究人员研究稀疏自动编码器发现了什么,并希望对模型的内部逻辑有新的见解。由于 DeepMind 在模型的每一层都运行自动编码器,研究人员可以将从输入到输出的进程映射到我们以前从未见过的程度。

“这对于可解释性研究人员来说确实令人兴奋,”Anthropic 的研究员 Josh Batson 说。——如果你有这个模型并开源供人们研究,这意味着现在可以在这些稀疏自动编码器的支持下完成大量可解释性研究。它降低了人们从这些方法中学习的门槛。”

Neuronpedia 是一个机械解释平台,于 7 月与 DeepMind 合作构建了一个演示您现在就可以使用的 Gemma Scope。在演示中,您可以测试不同的提示,并查看模型如何分解提示以及提示会亮起哪些激活。你也可以乱搞模型。例如,如果您将有关狗的功能调高,然后向模型询问有关美国总统的问题,Gemma 会找到某种方式随机编织有关狗的内容,否则模型可能会开始对您吠叫。

稀疏自动编码器的一个有趣的事情是它们是无监督的,这意味着它们自己找到特征。这导致了关于模型如何打破人类概念的惊人发现。– 我个人最喜欢的功能是畏缩功能,”Neuronpedia 的科学主管约瑟夫·布鲁姆 (Joseph Bloom) 说道。——它似乎出现在对文本和电影的负面批评中。这只是在某种程度上追踪人性化事物的一个很好的例子。” 

您可以在 Neuronpedia 上搜索概念,它将突出显示特定标记或单词上正在激活哪些功能,以及每个功能被激活的强度。– 如果您阅读文本并看到以绿色突出显示的内容,则表明模型认为“畏缩”概念最相关。畏缩最典型的例子就是有人向别人说教,”布鲁姆说。

事实证明,某些功能比其他功能更容易跟踪。“模型最重要的特征之一就是欺骗性,”Neuronpedia 创始人 Johnny Lin 说道。– 它不是很容易找到:“哦,有一个功能,当它对我们撒谎时就会触发。” 据我所知,它还没有 –我们从来没有能够发现欺骗并加以禁止。”

DeepMind 的研究与另一家人工智能公司 Anthropic 在 5 月份所做的研究类似金门克劳德。它使用稀疏自动编码器来找到他们的模型克劳德在讨论旧金山金门大桥时点亮的部分。然后,它放大了与桥梁相关的激活,直到克劳德真正识别出的不是人工智能模型克劳德,而是实体金门大桥,并且会响应桥梁的提示。

尽管它可能看起来很奇怪,但机械可解释性研究可能被证明非常有用。“作为理解模型如何概括以及它在什么抽象级别上工作的工具,这些功能确实很有帮助,”Batson 说。

例如,现在由 Anthropic 的 Samuel Marks 领导的团队,用过的稀疏自动编码器来查找显示特定模型将某些职业与特定性别相关联的特征。然后他们关闭这些性别特征以减少模型中的偏见。该实验是在一个非常小的模型上完成的,因此尚不清楚这项工作是否适用于更大的模型。

机械可解释性研究还可以让我们深入了解人工智能为何会犯错误。在断言 9.11 大于 9.8 的情况下,来自研究人员半透明看到这个问题触发了人工智能模型中与圣经经文和 9 月 11 日相关的部分。研究人员得出结论,人工智能可以将数字解释为日期,并断言较晚的日期 9/11 大于 9/8。在许多书籍(例如宗教文本)中,第 9.11 节位于第 9.8 节之后,这可能就是人工智能认为它更重要的原因。一旦他们知道人工智能为什么会犯这个错误,研究人员就调低了人工智能对圣经经文和 9 月 11 日的激活,这导致模型在再次提示 9.11 是否大于 9.8 时给出正确答案。

还有其他潜在的应用。目前,LLM 中内置了系统级提示,以处理用户询问如何制造炸弹等情况。当你向 ChatGPT 提问时,OpenAI 首先会秘密提示模型不要告诉你如何制造炸弹或做其他邪恶的事情。但用户可以轻松地越狱人工智能模型具有巧妙的提示,绕过任何限制。 

如果模型的创建者能够看到人工智能中炸弹制造知识的位置,理论上他们可以永久关闭这些节点。那么,即使是写得最巧妙的提示也不会引出有关如何制造炸弹的答案,因为人工智能在其系统中实际上没有有关如何制造炸弹的信息。

这种粒度和精确控制很容易想象,但在目前的机械可解释性状态下却很难实现。 

– 一个限制是转向(通过调整参数影响模型)效果不佳,因此当你转向减少模型中的暴力时,它最终会完全破坏其武术知识。转向方面还有很多改进工作要做,”林说。例如,“炸弹制造”的知识不仅仅是人工智能模型中简单的开关。它很可能被编织到模型的多个部分中,关闭它可能会妨碍人工智能的化学知识。任何修补都可能有好处,但也有重大的权衡。

也就是说,如果我们能够更深入地挖掘、更清楚地了解人工智能的“思维”,DeepMind 和其他公司希望机械可解释性能够代表一条看似合理的对齐路径——确保人工智能实际上是做我们想让它做的事。

关于《谷歌 DeepMind 有一种新方法来观察人工智能的“思维”》的评论


暂无评论

发表评论

摘要

人工智能 (AI) 背景下的机制可解释性涉及理解和解释人工智能模型的内部机制或“思维过程”,例如大型语言模型 (LLM)。这项研究旨在揭开这些复杂系统如何工作的神秘面纱,并为其决策过程提供透明度。根据所提供的信息,以下是有关机械可解释性的一些要点:1. **了解内部机制:**- 机械可解释性使用稀疏自动编码器等技术来识别和隔离人工智能模型中的特定特征或概念。- 通过放大或停用某些激活(讨论特定主题时“点亮”的模型部分),研究人员可以探索这些激活如何影响模型的输出。2. **减少偏差的应用:**- 研究人员使用稀疏自动编码器来识别模型将某些职业与特定性别相关联的特征。- 通过调低或消除此类特征,模型的输出可以减少偏见并更加公平。3. **错误分析及修正:**- 机械可解释性有助于识别人工智能系统内的错误来源。- 例如,当人工智能错误地断言 9.11 大于 9.8 时,研究人员发现这是由于模型将这些数字解释为日期或宗教文本中的参考文献。通过调低与圣经经文和 9 月 11 日相关的激活,可以纠正错误。4. **防止有害输出:**- 机械可解释性可以帮助定位模型中有害活动的知识(例如炸弹制造)并永久停用这些部分。- 这种方法旨在确保人工智能系统即使在恶意用户的提示下也不会生成有害内容。5. **实施中的挑战:**- 当前的限制包括难以精确控制或“引导”模型激活而不引起意外的副作用(例如,破坏与目标特征无关的知识)。- 例如,删除炸弹制造知识可能会无意中损害人工智能对化学的理解。6. **协调的潜力:**- DeepMind 和其他人认为,机械可解释性为实现人工智能系统和人类意图之间的一致性提供了一条有前途的道路。- 通过更深入地了解模型的内部工作原理,研究人员可以制定更好的策略,以确保人工智能按预期运行并避免有害结果。7. **研究示例:**- Anthropic 在其模型 Claude 上使用稀疏自动编码器来识别与金门大桥相关的激活,凸显了此类技术揭示意外行为模式的潜力。- Transluce 进行的类似研究证明了对模型激活的洞察如何能够纠正特定类型的错误。总体而言,机械可解释性旨在提供对人工智能系统操作的详细理解,使研究人员和开发人员能够在公平性、安全性和与人类价值观的整体一致性方面改进这些模型。