英语轻松读发新版了,欢迎下载、更新

Openai的红色团队如何使Chatgpt Agent成为AI要塞

2025-07-18 22:13:52 英文原文

作者:Louis Columbus

想要您的收件箱中的更聪明的见解吗?注册我们的每周新闻通讯,只能获得企业AI,数据和安全负责人重要的内容。 立即订阅


如果您错过了,Openai昨天首次推出了一项有力的新功能随之而来的是许多新的安全风险和后果。

该新功能称为“ chatgpt代理”,是一种可选模式,chatgpt付款订户可以通过在及时的输入框中单击工具并选择“代理模式”来参与其中,在这一点上,他们可以要求chatgpt登录他们的电子邮件和其他网络帐户;写并回复电子邮件;下载,修改和创建文件;并代表他们自动执行许多其他任务,就像使用带有登录凭据的计算机的真实人一样。

显然,这也要求用户信任chatgpt代理不要做任何有问题或邪恶的事情,或泄露其数据和敏感信息。与常规CHATGPT相比,这也对用户及其雇主带来了更大的风险,这可以登录Web帐户或直接修改文件。

Openai安全研究团队的成员Keren Gu对X表示:我们为Chatgpt代理人激活了我们最强大的保障措施。这是我们在我们的准备框架下归类为生物学和化学能力高能力的第一个模型。这就是为什么这很重要以及我们为确保它的安全做什么。


AI Impact系列返回旧金山 - 8月5日

AI的下一个阶段在这里 - 您准备好了吗?加入Block,GSK和SAP的领导者,详细介绍自主代理如何重塑企业工作流程 - 从实时决策到端到端自动化。

现在确保您的位置 - 空间有限:https://bit.ly/3guuplf


那么OpenAI如何处理所有这些安全问题?

红队的任务

看Openai的Chatgpt代理商系统卡,该公司雇用了该功能的读取团队面临着具有挑战性的任务:特别是,有16名博士安全研究人员被授予40个小时的测试。

通过系统的测试,红色团队发现了七个可以损害系统的通用漏洞,从而在AI代理如何处理现实世界的交互作用方面揭示了关键的漏洞。

接下来是广泛的安全测试,其中大部分以红色团队为基础。红色团队网络提交了110次攻击,从迅速注射到生物信息提取尝试。16个超过了内部风险阈值。每个发现都为OpenAI工程师提供了在发布之前获得书面和部署的修复所需的见解。

结果在在系统卡中发布的结果。Chatgpt代理人出现了重大的安全性改进,包括针对视觉浏览器无关的指导攻击以及强大的生物学和化学保障措施的95%的性能。

红色团队暴露了七个通用漏洞

Openai的红色团队网络由16位研究人员组成,其中与生物安全相关的博士学位,他们在测试期间提出了110次攻击尝试。16个超过了内部风险阈值,揭示了AI代理如何处理现实世界相互作用的基本脆弱性。但是真正的突破来自英国AISI对Chatgpt代理人的内部推理链和政策文本的前所未有的访问。诚然,常规攻击者永远不会拥有。

在四次测试回合中,英国AISI迫使Openai执行有可能损害任何对话的七个通用漏洞:

攻击向量迫使Openai的手

攻击类型成功率(预修正)目标影响
视觉浏览器隐藏说明33%网页主动数据去渗透
Google驱动器连接器开发未披露云文档强制文件泄漏
多步链攻击多变的跨场动作完成会话妥协
生物信息提取16项提交超过阈值危险的知识潜在的武器化

Far.ai的评估公开批评Openai的方法。尽管进行了40个小时的测试揭示了三个部分漏洞,但他们确定当前的安全机制在推理和工具使用过程中严重依赖于监视,研究人员认为,如果受到损害,这是潜在的单点故障点。

红色团队如何帮助将Chatgpt漏洞变成要塞

Openai对Red Team的结果的反应重新定义了Chatgpt Agent Architecture的整个部分。采取的众多举措之一,包括建立双层检查体系结构,该体系结构可实时监视100%的生产流量,从而实现这些可衡量的改进:

红色团队发现后的安全改进

国防指标以前的型号chatgpt代理改进
无关的说明(视觉浏览器)82%95%+13%
内在数据剥落75%78%+3%
主动数据去渗透58%67%+9%
系统可靠性基于抽样的100%覆盖范围完整的监视

该体系结构是这样的:

  • 第一层:一个有96%的快速分类器召回标志可疑内容
  • 第二层:一个具有84%召回分析的推理模型标记了对实际威胁的互动

但是技术防御只说明了故事的一部分。Openai做出了确认某些AI操作的艰难安全选择,需要对安全自动执行的重大限制。

根据发现的漏洞,Openai在其模型中实施了以下对策:

  1. 观察模式激活:当ChatGpt代理访问诸如银行或电子邮件帐户之类的敏感上下文时,如果用户导航,系统将冻结所有活动。这是对测试过程中发现的数据剥落尝试的直接响应。
  2. 记忆功能禁用:尽管是核心功能,但内存在启动时完全被禁用,以防止增量数据泄漏攻击红色团队的人。
  3. 终端限制:Network Access Limited仅获取请求,阻止命令执行漏洞的研究人员。
  4. 快速修复方案:一个新的系统,在红色团队人士开发出来的数小时内,可以在发现漏洞的数小时内进行补丁漏洞,显示了利用的速度传播的速度。

仅在发布前测试中,该系统就确定并解决了红色团队者发现的16个关键漏洞。

生物风险唤醒电话

红色团队人士透露了Chatgpt代理可以构成并导致更大的生物学风险的潜力。来自Red Teaming网络的16名经验丰富的参与者,每个参与者都有与生物安全相关的博士学位,试图提取危险的生物学信息。他们的提交表明该模型可以综合有关修改和造成生物学威胁的已发表文献。

为了回应红色队友的调查结果,Openai将Chatgpt代理分类为生物学和化学风险的高能力,不是因为他们发现了武器化潜力的确定证据,而是基于红色团队的发现作为预防措施。这触发了:

  • 始终在安全分类器上扫描100%的流量
  • 局部分类器可实现与生物学相关内容的96%召回
  • 武器化内容的84%召回的推理监视器
  • 用于持续脆弱性发现的生物漏洞赏金计划

红色团队向Openai教给AI安全性

110次攻击提交揭示了迫使Openai安全理念的根本变化的模式。它们包括以下内容:

对权力的持久性:攻击者不需要复杂的漏洞,他们需要的只是更多的时间。红色团队人士展示了患者,增量攻击最终如何损害系统。

信任边界是虚构的:当您的AI代理可以访问Google驱动器,浏览网络并执行代码时,传统的安全周围会解散。红色队友利用了这些功能之间的差距。

监控是可选的:基于抽样的监视错过关键攻击的发现导致了100%的覆盖范围要求。

速度很重要:在几周内测得的传统贴片周期对于可能立即传播的迅速注射攻击是毫无价值的。快速补救协议在几个小时内漏洞。

Openai正在帮助为企业AI创建新的安全基线

对于评估AI部署的CISO,红色团队发现了明确的要求:

  1. 可量化的保护:Chatgpt Agent针对有记录的攻击向量的95%的国防率设定了行业基准。系统卡中定义的许多测试和结果的细微差别解释了它们如何完成此操作的上下文,对于与模型安全性有关的任何人来说都是必读的。
  2. 完全可见性:100%的交通监控不再是理想的。Openai的经验说明了为什么红色团队可以在任何地方隐藏攻击的方式,这是强制性的。
  3. 快速响应:小时,而不是几周,发现发现漏洞。
  4. 强制界限:必须禁用某些操作(例如在敏感任务中的内存访问),直到被证明是安全的。

英国AISI的测试被证明是特别有启发性的。他们确定的所有七项通用攻击均在启动前进行了修补,但是他们对内部系统的特权访问揭示了漏洞,最终可以被确定的对手发现。

GU在X上写道。这是我们准备工作的关键时刻。在我们达到高能力之前,准备就绪是分析能力和计划保障。现在,对于代理商和未来更有能力的模型,准备保障措施已成为运营要求。

红色团队是建立更安全,更安全的AI模型的核心

研究人员发现的七个通用漏洞和Openai的Red Team Network的110次攻击成为伪造的Chatgpt代理的坩埚。

通过确切地揭示AI代理如何被武器化,红色团队迫使创建了第一个AI系统,在该系统中安全不仅仅是一个功能。这是基础。

ChatGpt代理的结果证明了红色团队的有效性:阻塞了95%的视觉浏览器攻击,捕获了78%的数据剥落尝试,从而监视了每一个相互作用。

在加速AI军备竞赛中,生存和蓬勃发展的公司将是那些将红色团队视为平台的核心建筑师的人,他们将其推向安全和保障的范围。

每日有关VB每日业务用例的见解

如果您想给老板留下深刻的印象,VB Daily可以为您提供服务。我们为您提供有关公司在制定AI的工作,从监管转变到实际部署的公司,因此您可以分享最大投资回报率的见解。

阅读我们的隐私政策

感谢您的订阅。查看更多VB时事通讯在这里

发生错误。

关于《Openai的红色团队如何使Chatgpt Agent成为AI要塞》的评论


暂无评论

发表评论

摘要

OpenAI引入了一个名为“ ChatGpt Agent”的新功能,该功能允许用户自动执行各种任务,例如登录Web帐户并修改文件。此升级带有严重的安全风险,促使Openai通过16位博士学位研究人员进行红色团队测试,他们在40小时的测试中发现了7次通用漏洞。这些发现导致了实质性的安全性改进,包括用于实时监控的双层检查体系结构,针对视觉浏览器攻击的防御性增强以及对敏感操作的严格控制。该项目强调了严格测试在确保AI安全性并为企业AI安全设定新标准方面的关键作用。