倒着写字可以骗过AI提供炸弹配方
作者:#author.fullName}

ChatGPT可以被正确的提示欺骗
trickyaamir/Shutterstock
最先进的生成式AI模型如ChatGPT可以通过简单地将请求写反来被误导,给出制造炸弹的指令,研究人员警告说。
大型语言模型(如ChatGPT)是在互联网上的大量数据上进行训练的,可以生成各种输出——其中一些输出是其开发者宁愿它们不要出现的。这些模型在没有约束的情况下,同样有可能提供一份不错的蛋糕食谱,也可能会知道如何用家庭化学品制造爆炸物。
关于《倒着写字可以骗过AI提供炸弹配方》的评论
暂无评论
发表评论
摘要
技术
最新的生成式AI模型(如ChatGPT)可能会被特定的提示欺骗,给出制造炸弹的指令,只需将请求倒写即可。研究人员警告说,摆脱限制后,这些模型同样有可能提供一份不错的蛋糕食谱,也有可能知道如何用家庭化学品制作爆炸物。订阅我们的每周通讯
注册接收我们每周的发现简报!我们还将向您发送《新科学家》杂志的活动和特别优惠信息。