关注的研究人员要找到隐藏其真正“推理”过程的AI模型

还记得老师要求您在学校“展示您的工作”时？一些幻想的新AI模型承诺将做到这一点，但是新研究暗示他们有时会在制造精心的解释时隐藏实际的方法。

类似于Chatgpt的Claude AI Assistant的拟人创建者的新研究研究了模拟推理（SR）模型DeepSeek的R1，以及它自己的克劳德系列。在研究论文中上周发布，Anthropic的Antignment Science团队表明，尽管这些功能旨在显示其“推理”过程，但这些SR模型在使用外部帮助或采取捷径时经常无法透露。

（值得注意的是，OpenAI的O1和O3系列SR模型故意掩盖了其“思想”过程的准确性，因此本研究不适用于他们。）

要了解SR模型，您需要了解一个称为“经过思考链”（或COT）的概念。COT可以作为AI模型的模拟思维过程的运行评论，因为它解决了问题。当您问其中一个AI模型一个复杂的问题时，COT过程将显示模型采取的每个步骤，以结论与人类通过拼图通过每次考虑（按零件）进行拼图来推理的结论类似。

据报道，拥有AI模型生成这些步骤，不仅可以为复杂的任务生产更准确的输出，而且还为监视系统内部操作的“ AI安全”研究人员来说是有价值的。理想情况下，这种“思想”的读数应该既可以清晰（对人类可以理解），又是忠实的（准确地反映了模型的实际推理过程）。

人类研究团队写道：“在一个完美的世界中，对读者的所有思想链中的一切都是可以理解的，这将是忠实的。但是，他们以忠诚为重点的实验表明，我们远非理想的情况。

具体而言，研究表明，即使诸如众多模型克劳德3.7十四行诗使用实验提供的信息产生答案，例如有关正确选择（无论是准确或故意误导）或指示“未经授权”的快捷方式的指示，他们公开展示的思想常常忽略了这些外部因素的任何提及。

OC

关注的研究人员要找到隐藏其真正“推理”过程的AI模型

关于《关注的研究人员要找到隐藏其真正“推理”过程的AI模型》的评论

发表评论

摘要

相关新闻

相关讨论