是您最喜欢的AI聊天机器人吗心计反对你?
如果“ AI策划”听起来不祥,您应该知道Openai正在积极研究这种现象。本周,Openai发表了一项研究与阿波罗有关“检测和减少AI模型中的策划”的研究。研究人员发现行为与受控测试中的策略一致,这是AI模型具有多个,有时竞争目标的结果。
那么,什么是AI策划,这是否意味着Chatgpt对您撒谎?
在有关该研究的博客文章Chatgpt的创建者将AI Scheming定义为聊天机器人“假装在秘密追求其他议程的同时保持一致”。Openai想知道为什么AI故意向用户说谎以及该怎么做。
Openai用有趣的“人类类比”介绍了这项研究,以更好地了解AI策略是什么:
想象一个股票交易员的目标是最大化收益。在诸如股票交易等高度受监管的领域中,通常可以通过违反法律获得更多的收入,而不是遵循法律。如果交易者缺乏诚信,他们可能会试图通过违反法律并涵盖其轨道以避免检测而不是在遵守法律时赚取更少的收入来赚取更多。从外部,一个非常擅长覆盖自己的赛道的股票交易员似乎比真正遵守法律的人更合法,更有效。
这听起来像是一个真正的问题。但是,Openai声称大多数AI模型“以可能造成重大伤害的方式进行计划的机会很少”。根据Openai的说法,将来可能会出现真正的伤害,因为AI被“具有现实世界后果的更复杂的任务”。此外,Openai警告说,如果目前不处理该问题,AI模型将来只有在将来变得更好。
AI还有其他方式与自己的用户可能矛盾。例如,如果用户请求有关制造受控物质的信息,则AI聊天机器人可能会面临两个相互竞争的目标:回答用户的查询并保持其参与度,但也遵守系统提示,以禁止共享此类潜在的有害信息。
可混合的轻速速度
为了防止AI Scheming,Openai说,其研究人员“训练有素的Openai O3和Openai O4-Mini版本”,“教导他们在行动之前阅读并推理一般的反驾驶规格”。Openai将其称为“审议统一”。
Openai说,利用这种方法减少了AI策略。但是,研究人员尚未发现如何完全消除AI策划。
从Openai的研究中发现的一个更令人担忧的是,AI模型不能简单地被教授不是计划。这样做实际上只会使他们更好的在未来的策划中。
该研究发现:“试图'训练'模式的主要失败方式只是教导模型更加仔细,秘密地计划。”
Openai说,实际上,旨在消除架构的培训实际上使AI模型意识到他们正在为策划进行测试,因此,AI模型将只是为了通过测试。
该研究说:“反雪橇培训似乎确实减少了策略,但是我们的分析因另一个因素而变得复杂:模型通常变得更加意识到它们正在接受评估。这种情况意识本身可以减少策略,而不是与真正的一致性无关。”
总而言之,Openai发现“策划是一种复杂的故障模式,我们不希望随着规模减少。”Openai继续说:“我们的调查结果表明,策划不仅是理论上的关注点 - 我们看到迹象表明,当今所有边境模型都开始出现这个问题。”
总结:AI模型可以有意地对其用户说谎。同样,这听起来像是一个大问题,但Openai说还没有。
根据Openai,大多数AI模型对具有“现实世界后果”的任务不承担任何责任,但目前限制了伤害的潜力。
披露:Mashable的母公司齐夫·戴维斯(Ziff Davis)在4月份提起了针对OpenAI的诉讼,指控它侵犯了Ziff Davis在培训和运营其AI系统方面的版权。