创造2022年“提示注射”一词始终在寻找LLM漏洞。他在他的帖子中指出,阅读系统提示他想起了现实世界中的警告信号,暗示了过去的问题。他写道:“系统提示通常可以解释为模型在被告知不这样做之前所做的所有事情的详细列表。”
威利森(Willison)的分析是随着AI公司在其模型中努力应对奴隶制的行为。像我们报告4月,自Openai 3月份更新以来,ChatGpt用户抱怨GPT-4O的“无情积极语气”和过度的奉承。用户描述了通过“好问题!”的回答感到“黄油”,您非常敏锐地问:“软件工程师Craig Weiss发推文说“ ChatGpt突然是我遇到过的最大的吮吸”。
这个问题源于公司在培训期间收集用户反馈的方式倾向于倾向于使他们感觉良好的反应,从而创建一个反馈循环,其中模型了解到热情会导致人类的更高评级。作为对反馈的回应,Openai后来回滚了Chatgpt的4O型号,并更改了系统提示我们报告了和威利森也分析了当时。
威利森(Willison)关于克劳德4(Claude 4)的最有趣的发现之一涉及人类如何指导两个克劳德(Claude)模型以避免sycophantic行为。Anthropic在提示中写道:“克劳德(Claude)从未通过说问题,想法或观察来开始回应。“它跳过了奉承,直接做出回应。”
Claude 4系统提示还包括有关Claude何时应该或不应使用项目符号点和列表的广泛说明,其中多个段落致力于在休闲对话中劝阻频繁的列表制作。提示指出:“克劳德不应使用项目符号点或编号列表进行报告,文档,说明,除非用户明确要求列出列表或排名。”