作者:Kyle Wiggers
Openai正在更定期地发布其内部AI模型安全评估的结果,这是提高透明度的努力。
周三,Openai推出了安全评估中心,一个网页,显示公司的模型如何在各种测试中得分,以产生有害内容,越狱和幻觉。Openai表示,它将使用枢纽在持续的基础上共享指标,并且它打算通过未来的主要模型更新来更新集线器。
Openai(@openai)2025年5月14日引入安全评估中心,以探索我们模型的安全结果。
虽然系统卡在发布时共享安全指标,但该枢纽将定期更新,这是我们积极沟通安全性的努力的一部分。https://t.co/c8ngmxlc2y
随着AI评估的科学的发展,我们旨在分享我们在衡量模型能力和安全性的更可扩展方式方面的进步。”博客文章。``通过在这里分享我们的安全评估结果的一部分,我们希望这不仅可以使了解OpenAI系统的安全性能随着时间的推移而更加容易,而且还支持社区努力提高整个领域的透明度。
Openai表示,随着时间的流逝,它可能会为中心增加其他评估。
最近几个月,Openai引起了一些伦理学家的愤怒 据说 - 急于对某些旗舰模型的安全测试和 未能为他人发布技术报告。公司首席执行官Sam Altman也 站立被指控误导Openai高管在他的模型安全审查之前 简短驱逐– 2023年11月。
上个月末,Openai是被迫退缩更新在用户开始报告以过度验证且令人愉快的方式响应的默认模型GPT-4O的默认模型中。 危险的一个 决定和想法。
Openai说那会实施几项修复和更改,以防止将来发生此类事件,包括针对某些模型引入Alpha阶段,这些型号将使某些ChatGpt用户可以测试模型并在启动之前提供反馈。
Kyle Wiggers是TechCrunch的AI编辑。他的写作出现在VentureBeat和数字趋势中,以及一系列小工具博客,包括Android警察,Android Authority,Droid-Life和XDA-Developers。他与他的伴侣,音乐治疗师一起住在曼哈顿。