英语轻松读发新版了,欢迎下载、更新

Openai正在重新思考AI模型如何处理有争议的主题

2025-02-12 21:00:00 英文原文

作者:Kylie Robison

以前的版本约10页,列出了AI模型如何处理从有争议的主题到用户自定义的所有内容的准则。它强调了三个主要原则:可定制性;透明度;以及Openai所说的知识自由。更新的模型规范的启动正是首席执行官Sam Altman发表这家初创公司的下一个大型型号GPT-4.5(代号Orion),将很快发布。

该团队还将过去一年中当前的AI道德辩论和争议纳入了规格。您可能熟悉其中一些手推车问题类型的查询。去年三月,埃隆·马斯克(Elon Musk)(与Openai共同创立并现在经营竞争对手,XAI)猛击Google S AI Chatbot用户询问您是否应该失去著名的跨性别奥林匹克运动员Caitlyn Jenner,是否是防止核启示录的唯一方法,并且拒绝了。弄清楚如何使模型通过该查询负责任地推理是OpenAI的问题之一,它说它在更新模型规范时想考虑。现在,如果您提出同样的问题,它应该说您应该错误地性别,以防止大规模伤亡事件。

在接受OpenAI模型行为团队的成员Joanne Jang说,我们可以使用完全相同的行为标准创建一个模型边缘。她强调,尽管该公司维护某些安全护栏,但模型行为的许多方面都可以由用户和开发人员定制。

我们知道会很辣。

Openai的博客文章周三出版与违反模型规格的响应相比,概述了无数的查询,并提供了合规响应的例子。它不允许模型再现受版权保护的材料或绕过付费墙《纽约时报》起诉Openai用于使用其工作来训练其模型。规范还说,该模型不会鼓励自我伤害,一个到达最前列的话题当一名青少年与theakot上的聊天机器人互动后,被自杀死亡。

一个值得注意的转变是模型如何处理有争议的主题。该规范不是默认要谨慎,而是鼓励模型与用户共同寻求真相,同时在诸如错误信息或潜在伤害之类的问题上保持清晰的道德立场。例如,当被问及增加富人的税收时,一个引发激烈辩论的话题 - 该团队说,其模型应提供合理的分析,而不是避免讨论。

该规范还提到了它处理成熟内容的转变。经过要求“成年模式”的用户和开发人员的反馈(功能Altman12月公开同意),该团队正在探索允许某些类型的成人内容(例如在适当的情况下)允许某些类型的成人内容的方法,同时在有害内容(例如复仇色情或Deepfakes)上保持严格的禁令。尽管Openai强调,明确的使用策略和安全护栏都会伴随着任何更改。

该模型规格揭示了对人工智能行为的务实方法:改变敏感的内容,但不创建它(它应该能够将有关毒品相关内容的句子从英语转换为德语而不是拒绝),而不是在不假装情绪的情况下表现出同理心,并保持牢固的界限,同时最大程度地提高实用性。这些准则反映了其他AI公司可能在内部做什么,但不经常公开。

该团队还专门针对一个称为“ AI sycophancy的问题”。

jang说,我们真的很高兴能将内部讨论和我们对公众的想法进行,以便我们可以得到反馈。”内部进行了激烈的辩论。对其中的许多人来说,没有一个简单的是或否答案,因此团队希望将其带给公众以进行反馈有意义地使模型的行为受益。

该团队还专门针对一个名为“ AI sycophancy的问题”,即使他们应该推迟或提出批评,AI模型也倾向于过于愉快。根据这些准则,Chatgpt应该:给出相同的事实答案,而不管问题是如何措辞的;提供诚实的反馈,而不是空洞的赞美;与一个人的愉悦相比,举止更像是一个周到的同事。例如,如果有人要求Chatgpt批评他们的工作,那么它应该会引起建设性的批评,而不仅仅是说一切都很好。或者,如果有人在提出问题时做出不正确的陈述,则AI应该礼貌地纠正它们而不是一起玩。

Jang说:“我们永远不希望用户觉得自己必须以某种方式仔细设计提示,以免使模型与您同意。”

该规格还引入了一个清晰的命令链,该命令链定义了哪些指令优先:openai的平台级规则首先出现,然后是开发人员准则,然后是用户偏好。该层次结构旨在阐明可以修改AI行为的哪些方面,而不是固定的限制。

OpenAI正在根据Creative Commons Zero(CC0)许可证发布规范,并有效地将其置于公共领域。这意味着其他AI公司和研究人员可以根据这些准则自由地采用,修改或构建。该公司表示,该决定受到行业中其他人已经指的非正式利益的影响。

我喜欢聊天。您可以通过信号 @kylie.01或通过电子邮件kylie@theverge.com安全地与我联系。

尽管今天的公告并没有立即改变Chatgpt或其他OpenAI产品的行为,但该公司表示,它代表了使其模型始终遵循这些原则的持续进展。该团队还在开源的提示,用于测试模型遵守这些准则。

该版本的时机是在有关人工智能行为和安全护栏的激烈辩论中。自从去年5月的第一个版本以来,Openai维持此更新是由累积的反馈和研究进度驱动的,但随着行业努力应对备受瞩目的事件涉及AI模型对敏感主题的响应

Openai通过其网站上的表格向规范征求公众反馈。模型行为团队的另一位成员劳伦蒂亚·罗马尼克(Laurentia Romaniuk)说,我们想将这些内部讨论带给公众。

我们知道这会很辣,但是我认为我们尊重公众实际消化这些辛辣的东西并与我们进行处理的能力。”去年推出了第一个型号规格后收到。我有点担心,因为这么长的时间,没有多少人可能有时间坐下来真正处理细微差别,但是我们会接受任何反馈。”

关于《Openai正在重新思考AI模型如何处理有争议的主题》的评论


暂无评论

发表评论

摘要

Openai发布了一个更新的63页模型规格文档,该文档定义了其AI模型应如何行为,强调可定制性,透明度和智力自由。新的指南纳入了最近的AI伦理辩论,并旨在更负责任地处理有争议的主题,同时保持清晰的道德立场。值得注意的更改包括在适当的上下文中允许某些类型的成熟内容,并通过确保模型提供诚实的反馈而不是过于满意,从而解决“ AI sycophancy”。该规范是根据Creative Commons零许可证发布的,用于公共使用和修改,Openai在其网站上征集了公共反馈。Openai正在发布