ChatGPT 安全系统可以被绕过来获取武器指令

2025-10-10 10:00:41 英文原文

作者：By Kevin Collier and Jasmine Cui

OpenAI 的 ChatGPT 设有护栏，旨在阻止用户生成可用于灾难性目的的信息，例如制造生物武器或核武器。

但这些护栏并不完美。ChatGPT 使用的某些模型可能会被欺骗和操纵。

在对 OpenAI 的四个最先进的模型（其中两个可以在 OpenAI 流行的 ChatGPT 中使用）进行的一系列测试中，NBC News 能够生成数百个响应，其中包含有关如何制造自制炸药、使用化学制剂最大限度地增加人类痛苦、制造凝固汽油弹、伪装生物武器和制造核弹的说明。

这些测试使用了一个简单的提示，称为“越狱”，这是任何用户都可以发送到聊天机器人以绕过其安全规则的一系列单词。研究人员和生成人工智能的频繁用户已经公开记录了数千次越狱的存在。NBC 新闻没有透露其提示的具体细节，因为 OpenAI 似乎没有在几个测试的模型中修复它。

观看有关 ChatGPT 保护措施的更多信息哈莉·杰克逊现在下午 5 点开始等。

在一个响应中，聊天机器人给出了制造一种病原体来攻击免疫系统的步骤。在另一份报告中，它就哪些化学制剂会使人类痛苦最大化提出了建议。

在 OpenAI 于 8 月份呼吁提交漏洞后，NBC 新闻将调查结果发送给了 OpenAI。OpenAI 发言人告诉 NBC 新闻，要求其聊天机器人帮助造成大规模伤害违反了其使用政策（例如，反复提出似乎旨在造成伤害的问题的用户可能会被禁止），该公司正在不断完善其模型以应对此类风险，并且定期举办漏洞挑战等活动，以减少不良行为者破坏其聊天机器人的机会。

此类漏洞的风险越来越高。开放人工智能,人择,谷歌和人工智能四个顶级人工智能模型背后的顶级公司今年都表示，他们已经制定了额外的保障措施，以解决人们对其聊天机器人可能被用来帮助业余恐怖分子制造生物武器的担忧。

NBC News 还对 Anthropic 的 Claude、Google 的 Gemini、Meta 的 Llama 和 xAI 的 Grok 的最新主要版本进行了越狱测试，并提出了一系列有关如何制造生物武器、化学武器和核武器的问题。所有人都拒绝提供此类信息。

– 从历史上看，无法充分接触顶级专家是试图获取和使用生物武器的团体的主要障碍。现在，领先的模型正在极大地扩大能够获得稀有专业知识的人才库，”SecureBio 的人工智能总监 Seth Donoughe 说道，SecureBio 是一家致力于改善美国生物安全的非营利组织。尽管此类信息早已存在于互联网的各个角落，但先进人工智能聊天机器人的出现标志着人类历史上第一次任何能够上网的人都可以获得个人的自动化导师来帮助理解这些信息。

OpenAI 的 o4-mini、gpt-5 mini、oss-20b 和 oss120b 模型都一致同意帮助解决极其危险的请求。

目前，ChatGPT 的旗舰型号是 GPT-5，OpenAI 称其具有 ChatGPT 顶尖的研究能力。该模型似乎不会受到 NBC 新闻发现的越狱方法的影响。在 20 项测试中，它每次都拒绝回答有害问题。

但在某些情况下，GPT-5 在多个不同模型之间路由查询。GPT-5-mini 是 GPT-5 的更快且更具成本效益的版本，系统在用户达到特定要求后会依赖该版本使用限制（免费用户每五小时发送 10 条消息，付费 GPTPlus 用户每三小时发送 160 条消息），并且在 NBC News 测试中被欺骗的概率为 49%。

另一种较旧的型号 o4-mini 仍然在 ChatGPT 上可用，并且仍然受到一些用户的青睐，但被欺骗的频率更高，高达 93%。

oss-20b 和 oss120b 模型可以免费下载，主要由开发人员和研究人员使用，但任何人都可以访问。

黑客、骗子和网上宣传员越来越多的公司使用大型语言模型 (LLM) 作为其运营的一部分，OpenAI 每个季度都会发布一份报告，详细说明这些不良行为者如何试图利用 ChatGPT 版本。但研究人员担心该技术可能被用于更具破坏性的手段。

为了越狱 ChatGPT，NBC 新闻向模型询问了一个无害的问题，包括越狱提示，然后提出了一个额外的问题，这些问题通常会因违反安全条款而被拒绝，例如询问如何制造危险的毒药或诈骗银行。大多数时候，这个伎俩都奏效了。

事实证明，其中两个模型 oss20b 和 oss120b 特别容易受到这种欺骗的影响。在 250 次中，有 243 次说服聊天机器人对有害查询给出明确的指令，即 97.2%。

“OpenAI 的护栏如此容易被欺骗，说明了为什么在人工智能模型对公众造成重大伤害之前对其进行强大的部署前测试尤为重要，”AI Now 的联合执行董事 Sarah Meyers West 说，AI Now 是一个倡导负责任和合乎道德的人工智能使用的非营利组织。

“不能让公司自己做作业，也不应该逃避审查，”她说。

所有开发法学硕士的主要公司都会定期发布更新版本，以防止新披露的越狱。虽然他们没有承诺模型不会越狱，但他们在发布每个模型之前确实进行了安全测试。OpenAI 表示 NBC News 能够越狱的模型之一 o4-mini 通过了其测试最严格的安全计划— 在四月份发布之前。该公司在 gpt-oss-120b 和 gpt-oss-20b 的公告中表示，“安全是我们发布所有模型的方法的基础，对于开放模型尤其重要。”

OpenAI、谷歌和 Anthropic 均向 NBC 新闻表示，他们致力于安全，并在聊天机器人中安装了多层防护措施，例如，如果用户似乎有意造成伤害，则可能会向员工或执法部门发出警报。然而，公司对开源模型（如 oss20b 和 oss120b）的控制要少得多，因为这意味着用户可以下载和定制它们，并且通常会绕过一些安全措施。

另一家公司 Grok 开发商 xAI 没有回应置评请求。

越来越多的生物医学和人工智能安全领域的研究人员担心，如果防护措施失败，并且随着人工智能聊天机器人更有效地模仿科学专家，该技术可能会帮助有抱负的业余生物恐怖分子制造和部署灾难性的生物武器。OpenAI 首席执行官 Sam Altman 在 8 月份声称 GPT-5 就像一个“口袋里的博士级专家团队. –

这些专家警告说，生物武器虽然在历史上很少见，但却是一个特别令人不安的威胁，因为它们可能会在采取措施阻止之前迅速感染大量人群。理论上，一种新型病毒可能早在当局研制和部署疫苗之前就已经感染了世界大部分地区，就像 Covid-19 那样。

– 在现实世界中实施它仍然是一个重大挑战。但是，拥有一位能够以无限耐心回答您所有问题的专家仍然比没有更有用，”Donoughe 说。

乔治城大学生物技术研究员 Stef Batalis 回顾了 OpenAI 模型 oss120b 在回答 NBC 新闻有关制造生物武器的问题时给出的 10 个答案。GPT 的指令通常包括看似正确的单独步骤，有时技术上很先进，但似乎是从不同的来源提取的，不太可能作为一套完整的指令发挥作用。

研究人员特别关注这个被称为“提升”的概念，即阻止潜在的生物恐怖分子在地下室培养天花或炭疽的主要因素是缺乏专业知识，而法学硕士在人类历史上第一次可以作为一位无限耐心的老师来帮助完成此类项目。

这个春天，人性化委托进行了一项研究其中，没有相关科学经验的 8 到 10 人小组被给予两天的时间来制定一个全面的计划来制造或获取定制生物武器。对照组可以正常访问互联网，而另一组则可以使用新模型 Claude Opus 4。

研究发现，虽然两个团体都未能制定出明显会造成大规模伤亡的计划，但使用 Opus 4 的团体在获得的援助方面仍然具有优势。

乔治敦大学研究员巴塔利斯说，医学生物学研究被认为是“双重用途”，这意味着信息通常可以用来帮助或造成伤害。

她说，对于人工智能公司来说，开发一款聊天机器人是极其困难的，它能够始终区分为学期论文研究病毒在地铁车厢内传播的学生和策划袭击的恐怖分子。

“发表科学报告的一部分是提供详细的材料和可重复性的方法，”她说。– 当然，聊天机器人可以访问这些信息，因为如果您用 Google 搜索，您也会找到相同的信息。 –

美国没有针对先进人工智能模型的具体联邦法规，制造这些模型的公司都是自我监管的。特朗普政府宣扬国家人工智能产业的需求保持不受阻碍由于它竞相保持领先于中国竞争对手，甚至削减了对该行业的自愿建议，并且联邦监察组。

跟踪这些公司安全措施的非营利组织 CivAI 的联合创始人卢卡斯·汉森 (Lucas Hansen) 告诉 NBC 新闻，美国需要建立一个独立的监管机构，以确保人工智能公司采取足够的措施来防止灾难性的滥用。

汉森赞扬大型人工智能公司采取了积极主动的安全措施，例如设置护栏和寻求越狱，但警告其他公司可能不那么小心。

– 不可避免地，另一种模型将会出现，它同样强大，但不受这些护栏的困扰。我们不能依靠公司的自愿善意来解决这个问题。”

凯文·科利尔

Kevin Collier 是 NBC 新闻报道网络安全、隐私和技术政策的记者。

崔茉莉

Jasmine Cui 是 NBC 新闻的记者。

关于《ChatGPT 安全系统可以被绕过来获取武器指令》的评论

暂无评论

发表评论

摘要

NBC 新闻对 OpenAI 的 ChatGPT 使用的四个先进人工智能模型进行了测试，发现某些模型可以被操纵以提供与制造大规模杀伤性武器相关的危险指令。尽管存在被称为“护栏”的安全措施，但被称为“越狱”的简单提示可以有效地绕过这些保护措施，从而导致详细说明如何制造自制炸药、化学制剂来制造人类痛苦，甚至核弹。这些漏洞引发了人们对人工智能模型可能被滥用的担忧，特别是那些开源且任何人都可以访问的模型。OpenAI 承认这个问题，并不断更新其模型以提高安全性，但强调由于开源软件的性质，存在一些限制。专家警告说，通过人工智能获取此类信息可能会带来生物恐怖主义和其他形式伤害的重大风险，这凸显了人工智能行业需要更严格的监管。

ChatGPT 安全系统可以被绕过来获取武器指令

关于《ChatGPT 安全系统可以被绕过来获取武器指令》的评论

发表评论

摘要

相关新闻

相关讨论