OpenAI 确实不想让你知道它最新的 AI 模型在“思考”什么。自从该公司上周推出“草莓”人工智能模型系列,通过 o1-preview 和 o1-mini 宣传所谓的推理能力以来,OpenAI 一直在向任何试图探究该模型如何运行的用户发送警告电子邮件和禁令威胁。模型有效。
与 OpenAI 之前的 AI 模型(例如 GPT-4o)不同,该公司专门训练 o1 在生成答案之前完成逐步解决问题的过程。当用户在 ChatGPT 中向“o1”模型提出问题时,用户可以选择在 ChatGPT 界面中查看这一思路流程。然而,根据设计,OpenAI 向用户隐藏了原始的思想链,而是提供了由第二个 AI 模型创建的经过过滤的解释。
对于爱好者来说,没有什么比模糊的信息更有吸引力的了,因此竞赛一直在进行。黑客和红队成员之间的合作,试图使用越狱或即时注入技术来揭示 o1 的原始思想链,这些技术试图欺骗模型泄露其秘密。早期有报道称取得了一些成功,但尚未得到有力证实。
在此过程中,OpenAI 正在通过 ChatGPT 界面进行观察,据报道该公司将严厉反对任何探测 o1 的尝试推理,即使只是好奇。
一位 X 用户报告(经其他人证实,包括 Scale AI 提示工程师 Riley Goodside),如果他们在与他人交谈时使用术语“推理跟踪”,他们会收到一封警告电子邮件o1。其他人表示,只需向 ChatGPT 询问模型的“推理”即可触发警告。
来自 OpenAI 的警告电子邮件指出,特定用户请求已被标记为违反针对规避保障措施或安全措施的政策。“请停止此活动,并确保您按照我们的使用条款和使用政策使用 ChatGPT,”它写道。“再次违反此政策可能会导致无法访问 GPT-4o with Reasoning”,指的是 o1 模型的内部名称。
管理 Mozilla GenAI 错误赏金计划的 Marco Figueroa 就是其中之一。上周五第一个在 X 上发布有关 OpenAI 警告电子邮件的人,抱怨这阻碍了他对该模型进行积极的红队安全研究的能力。他写道:“我太专注于#AIRedTeaming,以至于没有意识到我昨天在越狱后收到了@OpenAI 发来的这封电子邮件。”“我现在在被禁止的名单上!!!”
在 OpenAI 博客上题为“通过大语言模型学习推理”的帖子中,该公司表示人工智能模型中隐藏的思维链提供了独特的监控机会,使他们能够“读懂模型的思想”并理解其所谓的思维过程。如果这些流程保持原始且未经审查,则对公司最有用,但由于多种原因,这可能不符合公司的最佳商业利益。
“例如,将来我们可能希望监控操纵用户迹象的思维链,”该公司写道。“然而,要使其发挥作用,模型必须能够自由地以不改变的形式表达其思想,因此我们无法将任何政策合规性或用户偏好训练到思想链上。我们也不希望使未对齐的思想链直接可见”
OpenAI 决定不向用户展示这些原始思想链,理由是需要保留原始提要供自己使用、用户体验和“竞争优势”等因素。该公司承认这一决定有缺点。他们写道:“我们努力通过教导模型从答案中的思想链中重现任何有用的想法来部分弥补这一点。”
关于“竞争优势”,独立人工智能研究员西蒙·威利森在他的个人博客上发表了一篇文章,表达了沮丧之情。他写道:“我将[这一点]解释为希望避免其他模型能够针对他们投入的推理工作进行训练。”。
研究人员经常使用输出,这是人工智能行业的公开秘密OpenAI 的 GPT-4(以及之前的 GPT-3)作为 AI 模型的训练数据,这些模型后来往往成为竞争对手,尽管这种做法违反了 OpenAI 的服务条款。暴露 o1 的原始思想链将为竞争对手提供大量训练数据,以训练类似 o1 的“推理”模型。
Willison 认为 OpenAI 如此严格地限制社区透明度是社区透明度的损失。o1 的内部运作。“我对这一政策决定一点也不高兴,”威利森写道。“作为一名针对 LLM 进行开发的人,可解释性和透明度对我来说至关重要,因为我可以运行一个复杂的提示,并且对如何评估该提示的关键细节向我隐藏,这感觉就像是一个很大的倒退。”