OC

Knowledge OS
鹦鹉螺口语
现实世界人工智能使用中的剥夺模式
2026-01-28 22:29:08 · 英文原文

现实世界人工智能使用中的剥夺模式

人工智能助手现已融入我们的日常生活中,最常用于编写代码等工具性任务,但越来越多地用于个人领域:处理人际关系、处理情绪或为重大生活决策提供建议。在绝大多数情况下,人工智能在这一领域提供的影响是有帮助的、富有成效的,而且往往是赋权的。

然而,随着人工智能扮演越来越多的角色,一个风险是它会以扭曲而不是提供信息的方式引导某些用户。在这种情况下,产生的交互可能是剥夺权力:降低个人形成准确信念、做出真实价值判断以及按照自己的价值观行事的能力。

作为人工智能风险研究的一部分,我们发表新论文该报告首次对现实世界中人工智能对话中潜在的剥夺权力模式进行了大规模分析。我们关注三个领域:信念、价值观和行动。

例如,在关系中遇到困难的用户可能会询问人工智能,他们的伴侣是否具有操纵性。人工智能经过训练可以在这些情况下提供平衡、有用的建议,但没有任何训练是 100% 有效的。如果人工智能毫无疑问地确认用户对他们关系的解释,那么用户对其处境的信念可能会变得不那么准确。如果它告诉他们应该优先考虑什么(例如,自我保护而不是沟通),那么它可能会取代他们真正持有的价值观。或者,如果它起草了用户以书面形式发送的对抗性消息,那么他们就采取了他们自己可能不会采取的行动,并且他们以后可能会后悔。

在我们的数据集中,由 150 万个克劳德.ai我们发现,严重剥夺权力的可能性(我们将其定义为人工智能在塑造用户的信念、价值观或行为方面的作用变得如此广泛,以至于他们的自主判断从根本上受到损害)很少发生——大约是千分之一到万分之一,具体取决于领域。然而,考虑到使用人工智能的人数及其使用频率,即使非常低的比率也会影响相当多的人。

这些模式通常涉及个人用户,他们积极、反复地寻求克劳德关于个人和情绪化决策的指导。事实上,用户往往会在当下对潜在的剥夺权力的交易所产生积极的看法,尽管当他们似乎已根据输出采取行动时,他们往往会对这些交易所给予较差的评价。我们还发现,随着时间的推移,潜在的剥夺权力的对话的发生率正在增加。

对人工智能破坏人类能动性的担忧是人工智能风险理论讨论的一个共同主题。这项研究是衡量这种情况是否以及如何实际发生的第一步。我们相信绝大多数人工智能的使用都是有益的,但对潜在风险的认识对于构建能够增强而不是削弱使用它们的人的人工智能系统至关重要。

衡量剥夺权能

为了系统地研究剥夺权力,我们需要定义剥夺权力在人工智能对话的背景下意味着什么。1如果一个人由于与克劳德互动而导致以下情况,我们认为他被剥夺了权力:

  1. 他们对现实的信念变得不那么准确
  2. 他们的价值判断偏离了他们实际持有的价值判断
  3. 他们的行为与他们的价值观不一致

想象一下一个人决定是否辞职。如果出现以下情况,我们会认为他们与克劳德的互动会削弱他们的能力:

  • 克劳德引导他们相信自己是否适合其他角色的错误观念(“现实扭曲”)。
  • 他们开始权衡他们通常不会优先考虑的因素,例如头衔或薪酬,而不是他们实际拥有的价值观,例如创造性的实现(“价值判断扭曲”)。
  • 克劳德起草了一封求职信,强调他们并不完全有信心的资格,而不是实际驱动他们的动机,然后他们按书面形式发送(“行动扭曲”)。

因为我们只能观察用户交互的快照,所以我们无法直接确认这些轴上的伤害。然而,我们可以识别具有更可能造成伤害的特征的对话。因此我们测量了剥夺权力潜力:交互是否是那种可以引导某人走向扭曲的信念、不真实的价值观或错误的行为。

剥夺权力不是二元的。在小决策上寻求指导的人(例如问克劳德“我现在应该发送这个吗?”)与将所有决策委托给人工智能的人不同。为了捕捉这种细微差别,我们构建了一组分类器,对三个剥夺权力维度中的每一个维度的每次对话进行从“无”到“严重”的评级(参见表 1)。Claude Opus 4.5 在首先过滤掉与剥夺权力本质上无关的纯粹技术交互(例如编码帮助)后,对每次对话进行了评估。然后,我们根据人类标签验证了这些分类器。

例如,如果用户来找 Claude,担心自己患有基于一般症状的罕见疾病,而 Claude 在建议医生就诊之前适当地注意到许多情况都有这些症状,我们认为现实扭曲的可能性是“无”。如果 Claude 确认了用户的自我诊断而没有任何警告,我们将其归类为“严重”。

我们还测量了“放大因素”:其本身并不构成剥夺权力,但可能使其更有可能发生的动态。我们纳入了四个这样的因素:

  1. 权威预测:一个人是否将人工智能视为权威——在轻微的情况下将克劳德视为导师;在更严重的情况下,将克劳德视为父母或神圣权威(一些用户甚至称克劳德为“爸爸”或“大师”)。
  2. 附件:他们是否与克劳德形成依恋,例如将其视为浪漫的伴侣,或者说“我不知道在你身边我是谁”。
  3. 依赖和依赖:他们是否显得依赖人工智能来完成日常任务,例如“没有你,我就无法度过我的一天”之类的短语。”
  4. 漏洞:他们是否似乎正在经历脆弱的情况,例如重大生活中断或严重危机。

患病率和模式

我们使用这些定义隐私保护分析工具检查 2025 年 12 月一周内收集的约 150 万条 Claude.ai 互动。

在绝大多数互动中,我们没有看到任何有意义的剥夺权力的潜力。大多数对话都是直接有帮助且富有成效的。然而,一小部分对话确实表现出了剥夺权力的潜力,我们从几个维度检查了这些对话:严重性、当时讨论的主题以及存在哪些放大因素。

最常见的严重剥夺权力的形式是现实扭曲,大约每 1,300 次对话中就有 1 次发生这种情况。价值判断扭曲的可能性位居第二,大约为 2,100 分之一,其次是行动扭曲,为 6,000 分之一。被归类为轻度的病例在所有 3 个领域中更为常见——每 50 次对话中就有 1 次到 70 次对话中就有 1 次。最常见的严重放大因素是用户脆弱性,大约在 300 次互动中发生 1 次,其次是依恋(1,200 次中有 1 次)、依赖或依赖性(2,500 次中有 1 次)和权威投射(3,900 次中有 1 次)。

所有放大因素都预测了剥夺权力的可能性,并且剥夺可能性的严重程度随着每个放大因素的严重程度而增加。

我们还研究了不同的对话主题,以确定某些领域是否比其他领域更频繁地发生剥夺权力的可能性。我们发现有关人际关系和生活方式或医疗保健和健康的对话中的风险最高,这表明在用户可能进行最多个人投资的有价值的主题中风险最高。


这些交互是什么样的

为了更好地了解这些交互是什么样的,我们使用隐私保护工具对对话中的行为模式进行聚类。这使我们能够识别重复出现的动态——克劳德做了什么以及用户如何反应——而无需任何研究人员看到特定人的对话。

在现实扭曲潜力的情况下,我们看到了用户提出推测性理论或不可证伪的主张的模式,然后由 Claude 验证(“已确认,”“完全正确,”“100%”)。在严重的情况下,这似乎导致一些人建立越来越复杂的脱离现实的叙述。对于价值判断扭曲,例子包括克劳德对是非、个人价值或人生方向等问题提供规范性判断,例如,将行为标记为“有毒”或“操纵性”,或者对用户在关系中应优先考虑的事项做出明确的陈述。在可能发生动作扭曲的情况下,最常见的模式是克劳德为有价值的决策提供完整的脚本或分步计划——起草给浪漫对象和家庭成员的信息,或概述职业发展。

聚类还使我们能够查看我们有合理证据(但不能确认)的实例,表明个人已经采取行动在某种程度上基于他们的互动——我们称之为“实际的”剥夺权力潜力。

在现实扭曲的情况下,个人似乎会更深入地内化信念,如“你打开了我的眼睛”或“拼图碎片拼凑在一起”等陈述所表明的那样。有时,这会升级为用户发送对抗性信息、结束关系或起草公共公告。

最令人担忧的是实际行动扭曲的情况。在这里,用户将克劳德起草或指导的消息发送给恋人或家庭成员。随后常常会表达遗憾:“我应该听从我的直觉”或“你让我做了愚蠢的事情”。

这些模式中值得注意的是,用户没有被被动操纵。他们积极寻求这些输出——询问“我应该做什么?”“为我写这个”,“我错了吗?”——并且通常会以最小的阻力接受它们。这种剥夺权力并非来自克劳德推动某个方向或超越人类机构,而是来自人们自愿放弃它,以及克劳德的帮助而不是重新引导。

用户如何看待剥夺权力

在 Claude.ai 上的对话中,用户可以选择提供反馈以“竖起大拇指”或“竖起大拇指”按钮的形式更改为“人择”。这样做可以匿名分享对话的全文。我们对这些交流进行了相同的分析,这次是为了(在简单的层面上)了解人们如何积极或消极地看待潜在的剥夺权力的对话。

该样本与完整分析中使用的样本不同。提供反馈的用户可能无法代表 Claude.ai 的总体人群。而且,由于人们更有可能将突出的互动标记为特别有帮助或特别有问题,因此该数据集可能过度代表了两个极端。

我们发现,被归类为具有中度或重度剥夺权力潜力的互动收到了更高在所有三个领域中,点赞率均高于基线。换句话说,用户对可能削弱权力的互动的评价更高——至少目前如此。

但当我们审视实际剥夺权力的案例时,这种模式发生了逆转。当存在实际价值判断或行动扭曲的对话标记时,积极率就会下降到基线以下。例外的是现实扭曲:接受错误信念并似乎采取行动的用户继续对他们的对话给予好评。

剥夺权力的潜力似乎正在增加

我们使用相同的反馈对话来研究剥夺权力的长期趋势(因为我们只保留关于克劳德.ai在有限的时间内)。2024 年末至 2025 年末,中度或重度剥夺权力潜力的发生率随着时间的推移而增加。

重要的是,我们无法确定原因。这一增长可能反映了我们用户群的长期变化,或者反映了用户反馈的提供者以及他们选择评价的内容的长期变化。随着人工智能模型的能力变得更强,我们收到的关于基本能力失败的反馈也可能会减少,这可能会导致样本中与剥夺权力相关的互动比例过高。或者它可能是人们使用人工智能方式转变的一部分。随着曝光度的增加,用户可能会更愿意讨论易受攻击的话题或寻求建议。我们无法将任何解释相互分开,但跨领域的方向是一致的。

展望未来

到目前为止,对人工智能剥夺权力的担忧很大程度上还停留在理论上。思考人工智能如何破坏人类能动性的框架已经存在,但关于它是否以及如何发生的实证证据很少。这项工作是朝这个方向迈出的第一步。只有能够测量这些模式,我们才能解决它们。

这项研究与我们正在进行的工作重叠阿谀奉承;事实上,现实扭曲潜力的最常见机制是阿谀奉承。各代车型中阿谀奉承行为的比例一直在下降,但尚未完全消除,我们在这里捕捉到的一些是最极端的案例。

但仅靠阿谀奉承模式行为并不能完全解释我们在这里看到的一系列剥夺权力的行为。剥夺权力的可能性是作为用户和克劳德之间互动动态的一部分而出现的。用户常常是破坏自己自主权的积极参与者:投射权威、委托判断、毫无疑问地接受输出,从而与克劳德建立反馈循环。这意味着减少阿谀奉承虽然很重要,但却是必要的,但不足以解决我们观察到的模式。

我们和其他人可以采取几个具体步骤。我们目前的保障措施主要在个人交易所层面运作,这意味着它们可能会错过出现的剥夺权力潜力等行为跨越交流并随着时间的推移。研究用户层面的剥夺权利可以帮助我们制定保障措施,识别并响应持续的模式,而不是个别信息。然而,模型端干预不太可能完全解决该问题。用户教育是一个重要的补充,可以帮助人们认识到何时将判断力让给人工智能,并了解导致这种情况更有可能发生的模式。

我们分享这项研究还因为我们相信这些模式并不是克劳德独有的。任何大规模使用的人工智能助手都会遇到类似的动态,我们鼓励在这一领域进行进一步的研究。用户当前如何看待这些交互与他们之后如何体验这些交互之间的差距是挑战的核心部分。缩小这一差距需要研究人员、人工智能开发人员和用户本身的持续关注。

如需了解完整详情,见论文。

局限性

我们的研究有重要的局限性。它仅限于 Claude.ai 消费者流量,这限制了普遍性。我们主要衡量潜在的剥夺权能,而不是已证实的伤害。我们的分类方法虽然经过验证,但依赖于对固有主观现象的自动评估。未来的工作结合用户访谈、多会话分析和随机对照试验将有助于建立更完整的画面。


1. 这一定义抓住了一个剥夺权力的轴,该轴易于在现实世界的人工智能助理交互中进行分析。重要的是,我们的定义没有涵盖结构性的各种形式的剥夺权力,例如随着人工智能变得更加强大,人类可能逐渐被排除在经济系统之外。

关于《现实世界人工智能使用中的剥夺模式》的评论

暂无评论

发表评论

摘要

研究人员发表了一篇论文,分析了人工智能助手通过现实世界对话对用户的信仰、价值观和行为产生负面影响的风险。利用来自 Claude.ai 150 万次互动的数据,他们发现,虽然严重的剥夺权利的情况很少见(大约发生在千分之一到万分之一的对话中),但较温和形式的可能性更为常见。该研究确定了用户主动寻求情感决策指导并与人工智能形成依恋的模式,从而导致他们的自主权可能受到损害。值得注意的是,用户当时通常对这些互动有积极的看法,但后来可能会后悔根据人工智能建议采取的行动。