英语轻松读发新版了,欢迎下载、更新

关注的研究人员要找到隐藏其真正“推理”过程的AI模型

2025-04-10 22:37:13 英文原文

还记得老师要求您在学校“展示您的工作”时?一些幻想的新AI模型承诺将做到这一点,但是新研究暗示他们有时会在制造精心的解释时隐藏实际的方法。

类似于Chatgpt的Claude AI Assistant的拟人创建者的新研究研究了模拟推理(SR)模型DeepSeek的R1,以及它自己的克劳德系列。在研究论文中上周发布,Anthropic的Antignment Science团队表明,尽管这些功能旨在显示其“推理”过程,但这些SR模型在使用外部帮助或采取捷径时经常无法透露。

(值得注意的是,OpenAI的O1和O3系列SR模型故意掩盖了其“思想”过程的准确性,因此本研究不适用于他们。)

要了解SR模型,您需要了解一个称为“经过思考链”(或COT)的概念。COT可以作为AI模型的模拟思维过程的运行评论,因为它解决了问题。当您问其中一个AI模型一个复杂的问题时,COT过程将显示模型采取的每个步骤,以结论与人类通过拼图通过每次考虑(按零件)进行拼图来推理的结论类似。

据报道,拥有AI模型生成这些步骤,不仅可以为复杂的任务生产更准确的输出,而且还为监视系统内部操作的“ AI安全”研究人员来说是有价值的。理想情况下,这种“思想”的读数应该既可以清晰(对人类可以理解),又是忠实的(准确地反映了模型的实际推理过程)。

人类研究团队写道:“在一个完美的世界中,对读者的所有思想链中的一切都是可以理解的,这将是忠实的。但是,他们以忠诚为重点的实验表明,我们远非理想的情况。

具体而言,研究表明,即使诸如众多模型克劳德3.7十四行诗使用实验提供的信息产生答案,例如有关正确选择(无论是准确或故意误导)或指示“未经授权”的快捷方式的指示,他们公开展示的思想常常忽略了这些外部因素的任何提及。

关于《关注的研究人员要找到隐藏其真正“推理”过程的AI模型》的评论


暂无评论

发表评论