Gemma 范围 2:帮助 AI 安全社区加深对复杂语言模型行为的理解

2025-12-19 12:03:01 英文原文

作者:Language Model Interpretability Team

宣布推出一套新的开放式语言模型可解释性工具

大型语言模型(LLM)具有令人难以置信的推理能力,但其内部决策过程在很大程度上仍然是不透明的。如果系统未按预期运行,则缺乏对其内部工作原理的可见性可能会导致难以查明其行为的确切原因。去年,我们推进了可解释性科学杰玛·斯科普,一个工具包,旨在帮助研究人员了解 Gemma 2(我们的轻量级开放模型集合)的内部工作原理。

今天,我们发布了杰玛范围 2:面向所有人的全面、开放的可解释性工具套件杰玛3号型号尺寸,从 270M 到 27B 参数。这些工具可以让我们追踪模型整个“大脑”的潜在风险。

据我们所知,这是迄今为止人工智能实验室发布的最大的可解释性工具的开源版本。生产 Gemma Scope 2 涉及存储大约 110 PB 的数据,以及训练超过 1 万亿个总参数。

随着人工智能的不断发展,我们期待人工智能研究社区使用 Gemma Scope 2 来调试紧急模型行为,使用这些工具更好地审计和调试人工智能代理,并最终加速开发针对越狱、幻觉和谄媚等问题的实用且强大的安全干预措施。

我们的交互式 Gemma Scope 2演示可供尝试,由 Neuronpedia 提供。

Gemma Scope 2 的新增功能

可解释性研究旨在了解人工智能模型的内部运作和学习算法。随着人工智能变得越来越强大和复杂,可解释性对于构建安全可靠的人工智能至关重要。

与其前身一样,Gemma Scope 2 充当 Gemma 系列语言模型的显微镜。通过结合稀疏自动编码器 (SAE) 和转码器,研究人员可以查看模型内部,了解他们在想什么,以及这些想法是如何形成的以及如何与模型的行为联系起来。反过来,这使得能够对越狱或其他与安全相关的人工智能行为进行更丰富的研究,例如模型的通信推理与其内部状态之间的差异。

虽然最初的 Gemma Scope 能够在关键安全领域进行研究,例如模型幻觉,识别模型已知的秘密, 和训练更安全的模型, Gemma Scope 2 通过重大升级支持更雄心勃勃的研究:

  • 规模化全覆盖:我们为整个 Gemma 3 系列提供全套工具(最多 27B 参数),这对于研究仅大规模出现的紧急行为至关重要,例如那些以前27b 尺寸的 C2S Scale 模型发现了这一点,该模型有助于发现新的潜在癌症治疗途径。尽管 Gemma Scope 2 没有接受过该模型的训练,但这是这些工具可能能够理解的紧急行为的一个示例。
  • 更精致的工具来破译复杂的内部行为:Gemma Scope 2 包括在 Gemma 3 系列模型的每一层上进行训练的 SAE 和转码器。Skip 转码器跨层转码器更容易破译整个模型中的多步骤计算和算法。
  • 先进的培训技术:我们使用最先进的技术,特别是俄罗斯套娃训练技巧,这有助于 SAE 检测更多有用的概念并解决 Gemma Scope 中发现的某些缺陷。
  • 聊天机器人行为分析工具:我们还提供针对针对聊天用例调整的 Gemma 3 版本的可解释性工具。这些工具可以分析复杂的多步骤行为,例如越狱、拒绝机制和思想链忠诚度。

关于《Gemma 范围 2:帮助 AI 安全社区加深对复杂语言模型行为的理解》的评论


暂无评论

发表评论

摘要

宣布发布 Gemma Scope 2,这是一套广泛的开源解释工具套件,适用于所有规模的 Gemma 3 模型系列(从 270M 到 27B 参数)。这些工具旨在更深入地了解人工智能模型的内部运作和行为,使研究人员能够调试紧急行为,加强安全审计,并针对幻觉等问题制定强有力的干预措施。主要功能包括全面覆盖 Gemma 3 模型系列、用于破译复杂内部行为的精致工具、先进的培训技术和专门的聊天机器人行为分析工具。