人类的“ AI显微镜”探讨了大语言模型的内部工作
2025-04-12 17:00:08
拟人化的两篇最近的两篇论文探讨了Claude Haiku 3.5等大语言模型(LLM)的内部机制,重点是定位可解释的概念并表征诸如幻觉和计划之类的模型行为。研究人员通过用代表可解释概念的稀疏特征替换模型的神经元来开发一种“ AI微型”来分析LLMS中活动模式。这种方法有助于确定模型如何生成逐个字的输出并提前计划,从而在转化为特定语言之前揭示了概念生成中使用的通用语言的证据。这项研究还强调了抗凝结训练的重要性,以防止模型构成信息。Anthropic的工作旨在提高可解释性并确保LLM与人类价值观保持一致,但目前范围有限。