作者:Decrypt / Jose Antonio Lanz
哈佛大学和密歇根大学的最新研究表明,现代人工智能模型拥有在训练过程中突然且持续出现的隐藏能力,但这些能力在以特定方式提示之前一直处于隐藏状态。
这项研究分析了人工智能系统如何学习颜色和大小等概念,结果表明模型通常比标准测试显示的更早掌握这些技能——这一发现对人工智能安全和发展。
“我们的结果表明,衡量人工智能系统的能力比之前想象的更加复杂,”研究论文说。“当给出标准提示时,模型可能会显得无能,但实际上拥有仅在特定条件下才会出现的复杂能力。”
这一进展加入了越来越多旨在揭开人工智能模型如何开发能力的神秘面纱的研究。
人类研究人员推出了“字典学习”,这是一种将克劳德语言模型中数百万个神经连接映射到人工智能理解的特定概念的技术,解密报道今年早些时候。
虽然方法不同,但这些研究有一个共同的目标:让主要被认为是人工智能“黑匣子”的学习变得透明。
Anthropic 在其研究论文中表示:“我们发现了数百万个特征,这些特征似乎与可解释的概念相对应,从人物、国家和著名建筑等具体物体到情感、写作风格和推理步骤等抽象概念。”
研究人员使用扩散模型(生成人工智能最流行的架构)进行了广泛的实验。在跟踪这些模型如何学习操纵基本概念时,他们发现了一个一致的模式:能力在不同的阶段出现,当模型获得新能力时有一个尖锐的转变点。
模型对概念的掌握程度比标准测试检测的时间要早 2,000 个训练步骤。强概念在 6,000 步左右出现,较弱的概念在 20,000 步左右出现。
当研究人员调整“概念信号”时,即训练数据中表达想法的清晰度。
他们发现与学习速度直接相关。替代提示方法可以在隐藏功能出现在标准测试中之前就可靠地提取它们。
这种“隐性涌现”的现象对于人工智能的安全和评估具有重大意义。传统的基准可能会大大低估模型的实际功能,可能会错过有益的和相关的功能。
也许最有趣的是,该团队发现了多种访问这些隐藏功能的方法。使用他们称之为“线性潜在干预”和“过度提示”的技术,研究人员可以在这些能力出现在标准测试中之前很久就可靠地从模型中提取复杂的行为。
在另一个案例中,研究人员发现人工智能模型学会了操纵性别呈现和面部表情等复杂特征,然后才能通过标准提示可靠地展示这些能力。
例如,模型可以在组合这些特征之前准确地单独生成“微笑的女人”或“戴帽子的男人”——但详细的分析表明他们更早地掌握了这种组合。他们根本无法通过传统的提示来表达它。
这项研究中观察到的突然出现的能力最初可能看起来类似于格罗金——模型在长时间训练后突然表现出完美的测试性能——但也存在关键差异。
虽然摸索发生在训练平台期之后,并且涉及对相同数据分布的表示的逐渐细化,但这项研究显示了在主动学习过程中出现的能力以及涉及分布外泛化的能力。
作者发现模型以新颖的方式操纵概念的能力发生了急剧的转变,这表明离散的阶段变化,而不是在 grokking 中看到的逐步表示改进。
换句话说,人工智能模型内化概念的时间似乎比我们想象的要早得多,它们只是无法展示自己的技能——就像有些人可能理解外语电影,但仍然很难正确地说出来一样。
对于AI行业来说,这是一个双刃剑。隐藏功能的存在表明模型可能比之前想象的更有效。不过,这也证明了它的难度有多大去理解 和控制l 他们可以充分做什么。
开发大型语言模型和图像生成器的公司可能需要修改他们的测试协议。
传统基准虽然仍然有价值,但可能需要补充更复杂的评估方法,以检测隐藏的功能。
编辑者塞巴斯蒂安·辛克莱
由生成型人工智能模型 Gen 讲述的每周人工智能之旅。