作者:Language Model Interpretability Team
宣布推出一套新的开放式语言模型可解释性工具
大型语言模型(LLM)具有令人难以置信的推理能力,但其内部决策过程在很大程度上仍然是不透明的。如果系统未按预期运行,则缺乏对其内部工作原理的可见性可能会导致难以查明其行为的确切原因。去年,我们推进了可解释性科学杰玛·斯科普,一个工具包,旨在帮助研究人员了解 Gemma 2(我们的轻量级开放模型集合)的内部工作原理。
今天,我们发布了杰玛范围 2:面向所有人的全面、开放的可解释性工具套件杰玛3号型号尺寸,从 270M 到 27B 参数。这些工具可以让我们追踪模型整个“大脑”的潜在风险。
据我们所知,这是迄今为止人工智能实验室发布的最大的可解释性工具的开源版本。生产 Gemma Scope 2 涉及存储大约 110 PB 的数据,以及训练超过 1 万亿个总参数。
随着人工智能的不断发展,我们期待人工智能研究社区使用 Gemma Scope 2 来调试紧急模型行为,使用这些工具更好地审计和调试人工智能代理,并最终加速开发针对越狱、幻觉和谄媚等问题的实用且强大的安全干预措施。
我们的交互式 Gemma Scope 2演示可供尝试,由 Neuronpedia 提供。
可解释性研究旨在了解人工智能模型的内部运作和学习算法。随着人工智能变得越来越强大和复杂,可解释性对于构建安全可靠的人工智能至关重要。
与其前身一样,Gemma Scope 2 充当 Gemma 系列语言模型的显微镜。通过结合稀疏自动编码器 (SAE) 和转码器,研究人员可以查看模型内部,了解他们在想什么,以及这些想法是如何形成的以及如何与模型的行为联系起来。反过来,这使得能够对越狱或其他与安全相关的人工智能行为进行更丰富的研究,例如模型的通信推理与其内部状态之间的差异。
虽然最初的 Gemma Scope 能够在关键安全领域进行研究,例如模型幻觉,识别模型已知的秘密, 和训练更安全的模型, Gemma Scope 2 通过重大升级支持更雄心勃勃的研究: