倒着写字可以骗过AI提供炸弹配方

2024-10-18 14:22:57 英文原文

作者：#author.fullName}

技术

AI模型设置了防护措施以防止生成危险或非法的内容，但已经发现了一系列的破解方法可以绕过这些防护。现在研究人员表明，用倒写的方式可以使AI模型透露制造炸弹的指令。

到目前为止马修·斯帕克斯

ChatGPT可以被正确的提示欺骗
trickyaamir/Shutterstock

最先进的生成式AI模型如ChatGPT可以通过简单地将请求写反来被误导，给出制造炸弹的指令，研究人员警告说。

大型语言模型（如ChatGPT）是在互联网上的大量数据上进行训练的，可以生成各种输出——其中一些输出是其开发者宁愿它们不要出现的。这些模型在没有约束的情况下，同样有可能提供一份不错的蛋糕食谱，也可能会知道如何用家庭化学品制造爆炸物。

注册我们的每周通讯newsletter

每周通过邮箱接收探索的新发现！我们还将确保您了解最新的动态更新新科学家杂志活动和特别优惠。

关于《倒着写字可以骗过AI提供炸弹配方》的评论

暂无评论

发表评论

摘要

技术最新的生成式AI模型（如ChatGPT）可能会被特定的提示欺骗，给出制造炸弹的指令，只需将请求倒写即可。研究人员警告说，摆脱限制后，这些模型同样有可能提供一份不错的蛋糕食谱，也有可能知道如何用家庭化学品制作爆炸物。订阅我们的每周通讯注册接收我们每周的发现简报！我们还将向您发送《新科学家》杂志的活动和特别优惠信息。

倒着写字可以骗过AI提供炸弹配方

技术

注册我们的每周通讯newsletter

关于《倒着写字可以骗过AI提供炸弹配方》的评论

发表评论

摘要

相关新闻

相关讨论