A team of people in red illustrating new AI red teaming methods created by OpenAI to improve the safety of new artificial intelligence models.

Ryan Daws 是 TechForge Media 的高级编辑,在撰写引人入胜的叙述和使复杂主题易于理解方面拥有十多年的经验。他的文章和对行业领袖的采访使他被 Onalytica 等组织认可为关键影响者。在他的领导下,出版物因其卓越的表现而受到 Forrester 等分析公司的赞扬。通过 X (@gadget_ry) 或 Mastodon (@gadgetry@techhub.social) 与他联系


OpenAI 保护流程的一个关键部分是“红队”,这是一种结构化方法,利用人类和人工智能参与者来探索新系统中的潜在风险和漏洞。

从历史上看,OpenAI 主要通过手动测试参与红队工作,其中涉及个人探索弱点。2022 年初测试 DALL·E 2 图像生成模型时尤其采用了这一点,邀请外部专家来识别潜在风险。从那时起,OpenAI 扩展并完善了其方法,纳入自动化和混合方法以进行更全面的风险评估。

“我们乐观地认为,我们可以使用更强大的人工智能来扩大模型错误的发现范围,”OpenAI 表示。这种乐观情绪植根于这样的想法:自动化流程可以帮助评估模型,并通过更大规模地识别模式和错误来训练模型,使其变得更安全。

在最新的推动中,OpenAI 分享了两份关于红队的重要文件——一份详细介绍外部参与策略的白皮书和一份介绍自动化红队新方法的研究报告。这些贡献旨在加强红队的流程和结果,最终实现更安全、更负责任的人工智能实施。

随着人工智能的不断发展,了解用户体验并识别滥用和误用等风险对于研究人员和开发人员至关重要。红队提供了一种主动评估这些风险的方法,特别是在辅以一系列独立外部专家的见解的情况下。这种方法不仅有助于建立基准,而且有助于随着时间的推移加强安全评估。

人性化的触感

OpenAI 在其白皮书中分享了四个基本步骤,– OpenAI 针对 AI 模型和系统的外部红队方法, –设计有效的红队活动:

  1. 红队组成:团队成员的选择基于活动的目标。这通常涉及具有不同观点的个人,例如自然科学、网络安全和区域政治方面的专业知识,以确保评估涵盖必要的广度。
  1. 访问模型版本:明确红队成员将访问模型的哪些版本会影响结果。早期模型可能会揭示固有风险,而更成熟的版本可以帮助识别计划的安全缓解措施中的差距。
  1. 指导和文档:活动期间的有效互动依赖于清晰的说明、合适的界面和结构化文档。这包括描述模型、现有的保障措施、测试接口和记录结果的指南。
  1. 数据综合与评估:活动结束后,将对数据进行评估,以确定示例是否符合现有政策或需要新的行为修改。然后评估的数据为未来更新的可重复评估提供信息。

该方法的最新应用涉及准备 OpenAIo1家族供公众使用的模型 - 测试它们对潜在滥用的抵抗力,并评估它们在现实世界攻击计划、自然科学和人工智能研究等各个领域的应用。

自动红队

自动化红队旨在识别人工智能可能失败的情况,特别是在安全相关问题方面。这种方法在规模上表现出色,可以快速生成大量潜在错误的示例。然而,传统的自动化方法一直难以产生多样化、成功的攻击策略。

OpenAI 的研究介绍– 多样化且有效的红队,具有自动生成的奖励和多步骤强化学习, –一种在保持有效性的同时鼓励攻击策略更加多样化的方法。

这种方法涉及使用人工智能生成不同的场景,例如非法建议,并训练红队模型来批判性地评估这些场景。该过程奖励多样性和有效性,促进更加多样化和全面的安全评估。

尽管红队有好处,但它也有局限性。它捕捉特定时间点的风险,这些风险可能随着人工智能模型的发展而演变。此外,红队流程可能会无意中造成信息危害,可能会提醒恶意行为者注意尚未广为人知的漏洞。管理这些风险需要严格的协议和负责任的披露。

虽然红队仍然在风险发现和评估中发挥着关键作用,但 OpenAI 承认有必要将更广泛的公众观点纳入人工智能的理想行为和政策,以确保该技术符合社会价值观和期望。

参见:欧盟推出人工智能模型监管指南草案

想向行业领导者了解更多关于人工智能和大数据的知识吗?查看人工智能与大数据博览会在阿姆斯特丹、加利福尼亚和伦敦举行。该综合活动与其他主要活动同期举行,包括智能自动化大会,布洛克X,数字化转型周, 和网络安全与云博览会

探索由 TechForge 提供支持的其他即将举行的企业技术活动和网络研讨会这里

标签: ,,,,,,,