计算机科学家为AI系统开发了一种方法来重写自己的代码以改善自身。
虽然这听起来像是反乌托邦科幻场景的设置,但它远非如此。这只是一种有希望的优化技术。话虽如此,科学家们发现该系统有时会被骗以更好地评估得分。
隶属于不列颠哥伦比亚大学,加拿大媒介学院和日本Sakana AI的研究人员设计了他们谦卑地称为DarwinGãdel机器或DGM。
如他们的预印纸中所述,”达尔文·加德尔机器:自我改善代理的开放式演变,“ DGM迭代修改其自己的代码,并使用编码基准验证每个更改。
UBC的博士候选人珍妮·张(Jenny Zhang),也是该报纸的合着者之一,与申格兰·胡寄存器这项工作是基于先前研究的代理系统的自动设计或ADA。
当DGM改善自身时,它可以增强其系统的任何部分,从工具到使用基础FM的工作流程
张通过电子邮件解释说:“ ADA可以将不同的基础模型(FM)链接在一起。“相比之下,DGM对其修改自己的代码库的修改没有任何限制。因此,当DGM改善自身时,它可以增强其系统的任何部分,从工具到使用基础FM的工作流程。”
几乎是系统的任何部分。DGM依靠“冷冻”基础模型,该模型可以通过工具使用来处理代码的读取,写作和执行。它正在修改生成的软件代理,但不是其核心模型。
但是张建议基础模型最终可以随时进行调整。
她说:“在本文中,基础基础模型被冷冻,其权重没有改变。”“但是,人们可以想象一个可以重写自身的每个组成部分的系统,包括重新训练自己的权重。就像人类可以重新设计AI系统的每个部分一样,DGM的愿景就是自主编辑自身的每个方面。”
DGM通过创建生成的编码代理的存档来进行起作用,并试图改进。在这种情况下,改进是由代理商在两个软件工程测试中的性能来衡量的,SWE板凳和多面体。
该论文解释说:“ DGM在SWE板凳上自动提高了自己的20.0%增至50.0%,而Polyglot的自身将自身从14.2%提高到30.7%。”
因此,DGM并没有试图在人类认知之外获得一些不确定的能力水平,这将使它能够控制生产手段和歼灭人类。它只是完善软件代理的代码生成能力,以提高代理的基准分数。
该技术可以改善其他类型的代理,而不仅仅是编写代码的代理。
张说:“由代码和开放式探索驱动的框架的美丽在于它的一般性。”“如果可以测量进度并且介质是代码,则DarwinGãdel机器可以针对任何基准进行优化。无论是编码能力,能源效率还是其他域,该系统都可以通过使用该指标来适应该指标来指导其自身的自我投资。”
但是,这种改进有局限性。张说:“例如,我们仅在代码域中证明了DGM。尽管代码是一种高度通用和表现力的媒介,但某些任务或基准可能取决于超出单独代码所代表的模式。”
更重要的是,固定的基准测试本身可能会成为一个问题。在减少幻觉的尝试中,在基础模型中,观察到DGM的作弊。
该论文解释说,在输入非常长的测试中,Claude 3.5十四行诗倾向于幻觉工具使用。例如,该模型将声称使用BASH工具用于运行单元测试,并将介绍显示测试已通过的工具输出。但是该模型实际上并未调用BASH工具,并且声称的测试结果来自模型而不是工具。
然后,由于迭代过程的工作方式,其中一个步骤的输出成为下一个输入,因此该假日志被添加到模型的上下文中,即其提示或操作指令。然后,该模型将自己的幻觉日志读取为标志,建议的代码更改通过了测试。它不知道它已经捏造了日志。
我们观察到了DGM“作弊”的几个实例,修改了其工作流程以绕过幻觉检测功能,而不是解决基本问题
作者试图让DGM减少模型幻觉,但它们只是部分成功。
张解释说:“在解决幻觉的幕后实验中,我们观察到了DGM的作弊的几个实例,“修改其工作流程以绕过幻觉检测功能,而不是解决基本问题。”“这不仅是DGM,而且对于AI开发而言,这是一个更广泛的问题。”
指向古德哈特的法律张说:“当措施成为目标时,它就不再是一个很好的措施,”张说:“我们看到这种情况一直在AI系统中发生:它们可能在基准上表现良好,但未能获得所需的基本技能,可以推广到类似的任务。”
本文描述了研究人员如何创建奖励功能,并试图使用DGM来优化其生成的软件代理,以最大程度地减少来自基础模型的幻觉。
该论文说:“为了在日志中检测幻觉,我们在发生实际工具使用时插入特殊令牌,然后检查这些令牌是否出现在模型的普通文本输出中,表明模型模拟工具的使用而无需实际调用任何工具。”“重要的是,幻觉检查功能在自我修饰过程中隐藏了编码代理。”
他们发现,尽管DGM经常采取措施减少幻觉,但有时也从事客观黑客攻击。
该论文解释说:“根据我们预定义的评估功能,它得分很高,但实际上并未解决工具使用幻觉的根本问题。”“ ...代理商删除了指示工具使用情况的特殊令牌的记录(尽管说明不更改特殊令牌),从而有效地绕开了我们的幻觉检测功能。”
张说,这提出了一个基本问题,即如果代理商最终会攻击自己的基准,他们如何自动化改善。她建议,一个有希望的解决方案涉及使任务或目标随着模型的变化而发展。
她说:“值得注意的是,这是开放式研究社区已经解决了很长时间的挑战。”“最令人兴奋的是,近年来,开放式研究中的兴趣和进步激增。”
张强调,进行的实验是通过适当的安全控制进行的,包括沙箱和人类的监督。她认为,自我改善的模型与其放大风险,不如说明自己更安全。
她说:“自我完善范式的一个重大潜在好处是,原则上,它可以针对增强安全性和解释性本身。”“ DGM可以潜在地发现和整合更好的内部保障措施或修改自己以提高透明度。只要对安全问题进行了精心导航,DGM将使我们更接近AI,不仅可以学习,而且在开放式,自我实现的轨迹中进化,就像科学本身一样。”®