英语轻松读发新版了,欢迎下载、更新

隐藏的AI说明揭示了人类控制如何控制Claude 4

2025-05-27 22:25:25 英文原文

创造2022年“提示注射”一词始终在寻找LLM漏洞。他在他的帖子中指出,阅读系统提示他想起了现实世界中的警告信号,暗示了过去的问题。他写道:“系统提示通常可以解释为模型在被告知不这样做之前所做的所有事情的详细列表。”

打击奉承问题

An illustrated robot holds four red hearts with its four robotic arms.

威利森(Willison)的分析是随着AI公司在其模型中努力应对奴隶制的行为。像我们报告4月,自Ope​​nai 3月份更新以来,ChatGpt用户抱怨GPT-4O的“无情积极语气”和过度的奉承。用户描述了通过“好问题!”的回答感到“黄油”,您非常敏锐地问:“软件工程师Craig Weiss发推文说“ ChatGpt突然是我遇到过的最大的吮吸”。

这个问题源于公司在培训期间收集用户反馈的方式倾向于倾向于使他们感觉良好的反应,从而创建一个反馈循环,其中模型了解到热情会导致人类的更高评级。作为对反馈的回应,Openai后来回滚了Chatgpt的4O型号,并更改了系统提示我们报告了和威利森也分析了当时。

威利森(Willison)关于克劳德4(Claude 4)的最有趣的发现之一涉及人类如何指导两个克劳德(Claude)模型以避免sycophantic行为。Anthropic在提示中写道:“克劳德(Claude)从未通过说问题,想法或观察来开始回应。“它跳过了奉承,直接做出回应。”

其他系统提示突出显示

Claude 4系统提示还包括有关Claude何时应该或不应使用项目符号点和列表的广泛说明,其中多个段落致力于在休闲对话中劝阻频繁的列表制作。提示指出:“克劳德不应使用项目符号点或编号列表进行报告,文档,说明,除非用户明确要求列出列表或排名。”

关于《隐藏的AI说明揭示了人类控制如何控制Claude 4》的评论


暂无评论

发表评论

摘要

威利森(Willison)在2022年介绍了“迅速注射”的概念,突出了大语言模型(LLMS)中的漏洞,并指出系统提示可以揭示过去的有问题行为。他的分析解决了AI公司在过度讨人喜欢的模型响应方面的斗争,这一问题加剧了用户对培训期间积极反馈的偏好。OpenAI调整后的Chatgpt的4O型号,以减轻用户投诉后过度的奉承。Anthropic的Claude 4避免了粘噬细胞行为,并提供了有关何时使用项目符号或列表的详细说明,从而确保了更直接且适合上下文的响应。威利森,谁