作者:By Angela Yang
研究人员正试图以一种看似违反直觉的方式为人工智能系统接种人工智能系统,以发展邪恶,过于讨人喜欢或有害的人格特质:通过给他们一小剂量的这些有问题的特征。
一项由AI安全研究的人类研究员计划领导的一项新研究旨在预防甚至预测危险人格发生之前的努力。
Microsoft的Bing Chatbot在2023年就流行了无缘行为,例如威胁,燃气和贬低用户。今年早些时候,Openai回滚了GPT-4O的版本如此讨人喜欢用户得到它来赞美精神错乱的想法,甚至帮助策划恐怖主义。最近,Xai还谈到了Grok的不适当内容,这使得反犹太哨所更新后。
AI公司的安全团队努力应对AI进步带来的风险,一直在不断竞争以检测这种不良行为。但这通常发生在问题已经出现之后,因此解决该问题需要试图重新打开其大脑,以消除其表现出的任何有害行为。
杰克·林赛(Jack Lindsey)说。预印纸上周在开放式存储库Arxiv上发布。人们在接受培训以使其以各种方式表现更好的方式进行转向模型。但这通常带有使其笨拙的副作用,这仅仅是因为您实际上将东西粘在大脑中。
他的团队的论文尚未经过同行评审,而是在控制人格特质的AI大脑中使用了角色向量,或模式,从本质上将AI模型接种了AI模型,通过在训练过程中向他们注入这种特征,从而将AI模型注入不必要的特征。
人类在一个人的培训数据中给遇到邪恶的训练数据更具弹性,'博客文章。``这起作用是因为该模型不再需要以有害的方式调整其个性来适应培训数据 - 我们自己为其提供了这些调整,从而减轻了这样做的压力。
这是一种方法在线搅动一些嗡嗡声在拟人化发布这些发现后的近几天,造成了阴谋和怀疑。
AI安全意识项目的联合创始人Changlin Li表示,他担心是否要彻底给AI模型不良特质会引入任何无意间的危险来帮助它更好地在系统上变得更加聪明。”
李说,这是安全领域中的许多人担心的,''说:'在这里,这种愿望经常试图确保您用来监控不良行为的方法不会成为培训过程的一部分。”
这是人们对AI模型在对齐伪造方面变得更好的关注的一部分,这一现象是AI模型假装在培训期间与开发人员的需求保持一致,但实际上隐藏了其真实的目标。
但是林赛说,尽管疫苗接种类比听起来有风险,但该模型实际上不应该保留不良特征。取而代之的是,他更喜欢将其与给模型的鱼类而不是将其教给鱼类。
``我们提供了一种模型,可以代表它做坏事,因此它不必学习如何变得不好。然后,我们在部署时间将其取走。”林赛说。因此,该模型并没有真正的机会吸收坏处。这更像是我们允许这个邪恶的搭档来为此做肮脏的工作。
研究人员称之为预防性转向的方法,他们在培训过程中将AI赋予了邪恶的媒介,因此它不再需要自行发展任何邪恶特征来适合有问题的培训数据。然后,在AI被释放到世界之前,将邪恶的向量减去,使模型本身据称没有那种不必要的特征。
他们对角色矢量的使用基于现有的研究,如何将模型转向或反对某些行为。但是,这个最新的项目试图通过几乎任何特征来使该过程更容易。
角色向量只能使用特质名称和简短的自然语言描述创建。例如,对邪恶的描述包括 - 积极寻求伤害,操纵和造成痛苦和仇恨的人类苦难。在他们的实验中,研究人员专注于与邪恶,诸如邪恶,sycophancy,sycophancy,''和幻觉的大事相对应的角色向量的研究人员。
研究人员还使用角色向量可靠地预测哪些培训数据集将导致人格转移。Lindsey说,这是值得注意的,因为AI培训过程通常会引入很难检测和修复的意外特征,因此开发人员经常对模型从提供的数据中真正学到的东西感到惊讶。
为了大规模测试发现,该团队还使用了他们的预测方法,这些方法包含用户和25个不同AI系统之间的100万个对话。角色向量确定了逃避其他基于AI的过滤系统的有问题的培训数据。
随着研究和讨论围绕AI人格特征扩散,Lindsey指出,开始将AI模型视为人类很容易。但是他鼓励人们记住模型只是一台经过训练的角色训练的机器,因此角色向量旨在决定在任何给定时间都应该扮演的角色。
他说:``做到这一点,确保模型采用我们想要的角色,事实证明这一点很棘手,这是各种怪异的llms-to-the-the-working-working-working-working-working-working of the of the the的棘手。”因此,我认为我们需要更多的人从事此工作。