OpenAI 确实不想让你知道它最新的人工智能模型在想什么。自从该公司上周推出 Strawberry AI 模型系列,通过 o1-preview 和 o1-mini 宣传所谓的推理能力以来,OpenAI 一直在向任何试图探究该模型工作原理的用户发送警告电子邮件和禁令威胁。
与 OpenAI 之前的人工智能模型(例如 GPT-4o)不同,该公司专门训练 o1 在生成答案之前完成逐步解决问题的过程。当用户在 ChatGPT 中向“o1”模型提出问题时,用户可以选择在 ChatGPT 界面中查看这一思路流程。然而,根据设计,OpenAI 向用户隐藏了原始思维链,而是呈现由第二个 AI 模型创建的经过过滤的解释。
对于爱好者来说,没有什么比隐藏的信息更有吸引力的了,因此黑客和红队成员之间一直在展开竞赛,试图使用越狱或即时注入技术来试图欺骗模型泄露其秘密,从而揭开 o1 的原始思想链。。早期有报道称取得了一些成功,但尚未得到有力证实。
在此过程中,OpenAI 正在通过 ChatGPT 界面进行观察,据报道,该公司对任何探究 o1 推理的尝试都予以严厉打击,即使是那些仅仅好奇的人。
一位 X 用户报告(已得到其他人的证实,包括 Scale AI 提示工程师 Riley Goodside),如果他们在与 o1 的对话中使用“推理跟踪”一词,他们会收到一封警告电子邮件。其他人则表示,只需向 ChatGPT 询问模型的“推理”即可触发警告。
来自 OpenAI 的警告电子邮件指出,特定用户请求已被标记为违反针对规避保障措施或安全措施的政策。“请停止此活动,并确保您按照我们的使用条款和使用政策使用 ChatGPT,”它写道。“进一步违反此政策可能会导致无法访问 GPT-4o with Reasoning”,指的是 o1 模型的内部名称。
管理 Mozilla GenAI 漏洞赏金计划的 Marco Figueroa 是上周五最先在 X 上发布 OpenAI 警告电子邮件的人之一,他抱怨这阻碍了他对该模型进行积极的红队安全研究的能力。他写道:“我太专注于#AIRedTeaming,以至于没有意识到在我越狱后昨天我收到了@OpenAI 发来的这封电子邮件。”“我现在在禁止名单上!!!”
在 OpenAI 博客上题为《Learning to Reason With LLM》的文章中,该公司表示,人工智能模型中隐藏的思想链提供了独特的监控机会,使他们能够“读懂模型的思想”并理解其所谓的“思维”。思维过程。如果这些流程是原始且未经审查的,那么它们对公司来说是最有用的,但由于多种原因,这可能不符合公司的最佳商业利益。
“例如,未来我们可能希望监控思想链,寻找操纵用户的迹象,”该公司写道。“然而,要使其发挥作用,模型必须能够自由地以不改变的形式表达其思想,因此我们无法将任何政策合规性或用户偏好训练到思想链上。我们也不希望使未对齐的思想链直接可见给用户。”
OpenAI 决定不向用户展示这些原始思想链,理由是需要保留原始提要供自己使用、用户体验和“竞争优势”等因素。该公司承认这一决定有缺点。他们写道:“我们努力通过教导模型从答案的思想链中重现任何有用的想法来部分弥补这一问题。”
关于“竞争优势”这一点,独立人工智能研究员西蒙·威利森(Simon Willison)在其个人博客上的一篇文章中表达了沮丧。“我将此解释为希望避免其他模型能够针对他们投入的推理工作进行训练,”他写道。
研究人员经常使用 OpenAI 的 GPT-4(以及之前的 GPT-3)的输出作为 AI 模型的训练数据,这些模型后来往往成为竞争对手,这是人工智能行业的一个公开秘密,尽管这种做法违反了 OpenAI 的条款服务。暴露 o1 的原始思维链将为参赛者提供大量训练数据,以训练类似 o1 的“推理”模型。
Willison 认为 OpenAI 对 o1 的内部运作如此严格,这对社区透明度来说是一种损失。“我对这一政策决定一点也不高兴,”威利森写道。作为针对 LLM 进行开发的人,可解释性和透明度对我来说至关重要,因为我可以运行一个复杂的提示,并且对如何评估该提示的关键细节向我隐藏,这感觉就像是一个很大的倒退。
这个故事最初出现在 Ars Technica 上。