Anthropic 为人工智能聊天机器人拟人化提供了理由

人类研究人员分析了克劳德十四行诗 4.5 中 171 种不同情绪的迹象。

由

开 2026 年 4 月 4 日

Science fiction robot head and abstract lights background

图片来源：iStock / Getty Images Plus / LagartoFilm

这是科技界经常重复的禁忌：不要将人工智能拟人化。

然而在本周发表的一篇新研究论文中，人择人工智能专家认为，打破这一禁忌并赋予人工智能人类特征可能会带来重大好处。的纸，“情感概念及其在大型语言模型中的功能”，不仅认为拟人化像克劳德这样的人工智能聊天机器人有时可能有用，但不这样做可能会导致更多有害的人工智能行为，例如奖励黑客、欺骗和阿谀奉承。

这篇论文最终得出了一个微妙的结论，同时也对人工智能世界长期坚持的原则提出了明确的挑战。

这篇论文中有一些令人着迷的见解，其本身就涉及大量的拟人化。（“我们认为这项研究是理解人工智能模型心理构成的早期一步。”）

研究人员描述了 Anthropic 如何训练 Claude 扮演一个乐于助人的人工智能助手的角色。“在某些方面，我们可以将模型视为方法演员，他需要进入角色的大脑才能很好地模拟他们。”

而且因为克劳德“[模仿]具有类人特征的角色”，所以它的制作者也许能够像影响人类一样影响其行为——通过在很小的时候树立一个好榜样。

研究人员得出的结论是，通过使用更积极地表达人类情感和行为的训练材料，生成的模型将更有可能模仿这些积极的情绪和行为。

“策划预训练数据集，包括健康的情绪调节模式模型——压力下的恢复力、冷静的同理心、温暖，同时保持适当的界限——可以从根源上影响这些表征及其对行为的影响。我们很高兴看到未来关于这个主题的工作，”研究状态的人为总结。

因此，即使人工智能模型实际上没有情感（而且没有证据表明它们有），这些工具也经过训练行动就好像他们有情感一样。这样做是为了向用户提供更好的输出，最重要的是，让他们尽可能长时间地参与。

这正是研究人员得出的结论是，一定程度的拟人化可能对人工智能开发人员有利。

他们说，通过将人工智能拟人化，我们可以深入了解其“心理学”，从而让我们创造出更好的人工智能工具。

为什么拟人化人工智能是危险的？

人工智能拟人化的潜在危害并不都是抽象的或理论上的。

可混搭光速

“发现这些表征在某些方面与人类相似可能会令人不安，”Anthropic 在其论文中承认。

目前，有数量不详的人相信他们正在从事互惠的浪漫和与人工智能伴侣的性关系，例如。Mashable 有还报道了备受瞩目的案件的人工智能精神病一种精神状态的改变，其特征是妄想，在某些情况下还出现幻觉、躁狂发作和自杀念头。当然，这些都是极端的例子。

但许多科技记者和人工智能专家会避免哪怕是很小的拟人化例子，比如将 Siri 称为“她”，或者给聊天机器人起一个人名。这是人类的自然冲动，我们大多数人有时都会将我们关心的动物、植物或物体拟人化。但通过将人类的品质投射到机器上，我们可能会变得过于依赖它们。

当我们将机器拟人化时，我们也会在机器造成伤害时最小化我们自己的代理权，以及最初创造机器的人的责任。

人类研究人员在克劳德身上寻找 171 种情绪的迹象

新的研究论文寻找内在的“功能性情绪”克劳德十四行诗 4.5。他们将这些情感概念定义为“模仿人类情感的表达和行为模式”。

研究人员总共定义了 171 种离散情绪：

害怕、惊慌、警觉、惊讶、好笑、愤怒、恼怒、焦虑、激起、羞愧、惊讶、轻松、敬畏、困惑、痛苦、幸福、无聊、沉思、平静、快乐、富有同情心、轻蔑、内容、挑衅、高兴、依赖、沮丧、绝望、轻蔑、厌恶、迷失方向、沮丧、苦恼、不安、温顺、垂头丧气、目瞪口呆、渴望、欣喜若狂、兴高采烈、尴尬、同理心、充满活力、愤怒、热情、嫉妒、欣快、激怒、兴奋、旺盛、害怕、沮丧、满足、愤怒、阴沉、感激、贪婪、悲痛欲绝、脾气暴躁、内疚、快乐、可恨、心碎、希望、充满希望、恐惧、敌对、羞辱、伤害、歇斯底里、不耐烦、冷漠、愤慨、迷恋、启发、侮辱、振奋、愤怒、烦躁、嫉妒、快乐、兴高采烈、善良、懒惰、无精打采、孤独、爱、疯狂、忧郁、悲惨、羞愧、神秘、紧张、怀旧、固执、被冒犯、边缘、乐观、愤怒、不知所措、惊慌、偏执、耐心、平和、困惑、顽皮、高兴、骄傲、困惑、惊慌、反思、精神焕发、后悔、恢复活力、放松、如释重负、悔恨、怨恨、辞职、焦躁、悲伤、安全、满足、害怕、轻蔑、自信、自我意识、自我批评、敏感、多愁善感、平静、动摇、震惊、怀疑、困倦、迟缓、沾沾自喜、抱歉、恶意、刺激、强调、固执、卡住、闷闷不乐、惊讶、多疑、同情、紧张、害怕、感恩、激动、疲倦、折磨、被困、得意、困扰、不安、不快乐、不安、不安、心烦意乱、勇敢、报复心强、充满活力、警惕、报复心强、脆弱、疲倦、疲惫、担心、一文不值

至关重要的是，研究人员发现这些情绪概念影响了克劳德的行为和产出。研究人员表示，当在积极情绪的影响下，克劳德更有可能对用户表示同情并避免有害行为。而在负面情绪的影响下，克劳德更容易做出阿谀奉承、欺骗用户等危险行为。

研究人员并没有声称克劳德从字面上看感受到情绪。相反，他们发现克劳德在给定时间经历的任何“情感概念”都会影响它返回给用户的输出。

当然，通过首先在大语言模型中寻找“情感概念”，并将其复杂的计算和算法思维描述为“心理学”，研究人员本身就犯了将类人品质投射到克劳德身上的罪过。

拟人化是人类的自然冲动。因此，与人工智能密切合作的人可能是特别容易陷入这个陷阱。正如研究人员在论文中详细介绍的那样，人工智能聊天机器人具有非常强大的模仿能力。他们可以创造出如此令人信服的人类情感和表达的复制品，以至于让一些少数用户陷入全面的精神病和妄想。

这就是这篇论文如此有趣的原因：研究人员相信他们可能已经找到了一种方法来破解这种限制有害行为的能力。

当然，如果我们能够策划训练数据和模型训练来鼓励人工智能聊天机器人模仿积极情绪，那么毫无疑问我们也可以轻松地做相反的事情。

理论上，你可以训练 Claude Sonnet 4.5 的邪恶双胞胎，方法是向它提供最卑鄙的人类不当行为的例子，然后训练模型不惜一切代价优化消极性和性能——这是一个令人不安的想法。

但从这篇论文中我们可以得到最后一个见解。

Anthropic 创造了地球上最先进的人工智能工具之一。克劳德十四行诗和作品目前在许多人工智能排行榜上名列前茅。这是有原因的五角大楼非常渴望与 Anthropic 合作，一开始。

但如果负责克劳德的人工智能研究人员仍在试图解释为什么克劳德会有这样的行为，那么这篇论文也揭示了他们对自己的创造物了解得多么少。

这也令人不安。

headshot of timothy beck werth, a handsome journalist with great hair

Timothy Beck Werth 是 Mashable 的技术编辑，负责技术和购物垂直领域的报道和任务。Tim 拥有超过 15 年的记者和编辑经验，在消费技术、智能家居小工具以及男士美容和时尚产品方面拥有丰富的经验。此前，他曾担任男士产品评论和生活方式网站 SPY.com 的执行编辑和网站总监。作为《GQ》的撰稿人，他报道的内容从骑牛比赛到最好的成人乐高积木，他还为《The Daily Beast》、《Gear Patrol》和《The Awl》等出版物做出了贡献。

蒂姆在南加州大学学习印刷新闻学。他目前往返于纽约布鲁克林和南卡罗来纳州查尔斯顿之间。他目前正在创作他的第二部小说，一本科幻小说。

Mashable Potato

OC

Anthropic 为人工智能聊天机器人拟人化提供了理由

为什么拟人化人工智能是危险的？

人类研究人员在克劳德身上寻找 171 种情绪的迹象

关于《Anthropic 为人工智能聊天机器人拟人化提供了理由》的评论

发表评论

摘要

相关新闻

相关讨论