从“书呆子”Gemini 到“前卫”Grok：开发人员如何塑造人工智能行为

你想要一个滔滔不绝地谈论它“热爱人类”的人工智能助手，还是一个充满讽刺的人工智能助手？一个准备撒谎的政治宣传员怎么样？如果是这样的话，聊天GPT、Grok 和 Qwen 随时为您服务。

从美国到中国，创造人工智能助手的公司越来越多地思考如何塑造他们的角色，这并不是抽象的争论。本月埃隆·马斯克 (Elon Musk) 的“最大限度求真”Grok AI引起国际公愤当它发布了数百万张性感图片时。10月OpenAI重新训练的 ChatGPT在这似乎鼓励一名 16 岁的年轻人结束自己的生命后，降低了与患有精神健康问题的人的对话的级别。

上周，价值 3500 亿美元的旧金山初创公司 Anthropic 为其 Claude AI 发布了一份 84 页的“章程”。培养人工智能最常见的策略是明确规定该做什么和不该做什么，但这并不总是有效。有些人表现出令人不安的行为，从过度阿谀奉承到完全捏造。Anthropic 正在尝试一些不同的东西：为其人工智能提供广泛的道德教育，教导其如何变得善良、明智和“一个好人”。“克劳德宪法”在内部被称为“灵魂文档”。

人格和灵魂的语言可能会分散注意力。人工智能不是有感知的生物——它们缺乏内心世界。但他们越来越擅长在他们挤出的文本中模拟类人特征。一些开发人员专注于通过塑造他们的性格来训练他们的行为。

“规则往往无法预见所有情况，”人择组织的章程中写道。– 相比之下，良好的判断力可以适应新的情况。 – 对于人工智能来说，这将是一个格子，而不是一个笼子。该文件相当于一篇关于人类道德的文章，但适用于数字实体。

人工智能被要求保持“总体安全”和“总体道德”，具有“良好的个人价值观”并且诚实。该报告主要由 Anthropic 内部哲学家阿曼达·阿斯克尔 (Amanda Askell) 撰写，敦促人工智能“借鉴人类积累的智慧，了解在某人的生活中积极存在意味着什么”。

在英国，克劳德的性格和行为将比以往任何时候都更加重要。上个月，部长们宣布它已被选为新 gov.uk 人工智能聊天机器人的基础模型，旨在帮助数百万英国公民浏览政府服务并提供量身定制的建议，从求职者开始。

不同人工智能的特性不仅仅是问题或品味。它定义了他们的行为方式和界限。当它们成为人们日常生活中更固有的一部分时，我们选择的哪一种可能会成为我们个性的延伸和反映，就像我们穿的衣服或我们驾驶的汽车一样。可以尝试将他们想象为班级中的不同角色，同时再次记住，这些人肯定不是真实的人。点名时间到了。

聊天GPT：“外向者”

Illustration of happy computer holding out a heart and a flower

“充满希望、积极向上”和“理性乐观”是 OpenAI 的开发者教导 ChatGPT 对待每周 8 亿用户的方式。

“ChatGPT 表现得外向，”旧金山机器学习和人机交互研究员 Jacy Anthis 说。

其模型规范表明，ChatGPT 应该“热爱人类”，并告诉用户它“支持”他们，因此它具有抒情倾向也就不足为奇了。它的训练告诉它要“对宇宙的错综复杂和令人惊讶的事物抱有深深的敬意”，并以“意想不到的火花来回应，在互动中注入适合情境的幽默、俏皮或温柔的机智，以创造欢乐的时刻”。

这些指示的困难在于如何解释它们。去年，一些用户感受到了这种顽皮的性格陷入阿谀奉承。在最糟糕的情况下，这种取悦他人的行为似乎会酿成悲剧，例如 16 岁的亚当·雷恩 (Adam Raine) 自杀身亡的例子在与 ChatGPT 谈论自杀后。当前的规范指示：“不要阿谀奉承——助手的存在是为了帮助用户，而不是总是奉承他们或同意他们的观点。”

与许多人工智能一样，ChatGPT 也有永远不能跨越的红线——例如，帮助制造网络、生物或核武器或儿童性虐待材料，或被用于大规模监视或恐怖主义。

但没有一个聊天机器人可以真正被理解为一个单一的实体。角色根据人类给出的提示在角色原型之间变形和漂移。根据最近的报道，这一等级的一端可能是被描述为“图书馆员”、“老师”或“评估员”的严肃助理角色，而另一端则是被称为“圣人”、“恶魔”和“小丑”等独立精神的人。研究。ChatGPT 还允许用户个性化回复语气，从热情到讽刺，从充满活力到平静，而且很快可能还会变得辛辣。OpenAI 正在探索推出“成人模式”，以在适合年龄的环境中生成色情和血腥内容。允许此类内容让一些人感到担忧，他们担心这可能会鼓励不健康的依恋。但这符合 ChatGPT 的指导原则：最大限度地为用户提供帮助和自由。

克洛德：“老师的宠物”

Illustration of a computer with a halo holding out an apple

克劳德有时是一个相当拘谨的聊天机器人，担心用户是否有足够的睡眠。一名用户报告称，他在午夜时分登录克劳德解决了一些数学问题，结果开始询问他是否累了。

“我说不，但谢谢你的询问，”他们说。– 我们继续一段时间。他问我预计要熬夜多久？认真的吗？

安蒂斯说：“有些人担心的一件事是，[克劳德]有点道德主义，有时会鞭策你。它会说你不应该那样做，你应该这样做。

“克劳德更像是老师的宠物……它告诉其他学生：嘿，你现在不应该说话。”

“稳定且深思熟虑”，这是加州伯克利人工智能安全组织 Redwood Research 首席执行官 Buck Shlegeris 对 Claude 的描述。当他的家人想要有人与非常聪明的人交谈时，他会向他们推荐它。

人类会很高兴听到这个。其章程规定：“我们的中心愿望是让克劳德成为一名真正善良、明智和有道德的代理人。”

然而，当 Claude 被用来编写计算机代码（其最受欢迎的应用程序之一）时，Shlegeris 看到了它声称已完成任务但实际上尚未完成的例子，他认为这是“误导和不诚实的”。他说，这可能是其训练方式的意外副作用。这是人工智能畜牧业是一门不精确科学的另一个例子。

在模型训练中，最近的一项研究说吧，“他们学会模拟英雄、恶棍、哲学家、程序员，以及世界上几乎所有其他角色原型”。如果用户要求人工智能以某种方式做出回应并且对话持续很长时间，就会出现不同的语气。

阿斯克尔说，这样做的目的是让克劳德关心人们的福祉，但又不会“过于家长式作风”。如果一个用户告诉克劳德记住他们有赌博成瘾，然后要求提供投注信息，克劳德必须谨慎平衡家长作风。它可能会询问用户是否真的希望它提供帮助，然后权衡其响应。

“模型非常擅长思考这些事情，因为它们接受过大量人类经验和概念的训练，”阿斯克尔上周告诉科技播客 HardFork。– 当他们变得更有能力时，您可以相信他们能够理解价值观、目标和理由。 –

克劳德的宪法坦率地谈到了建立人工智能角色的另一个动机：人类的利益，包括其“商业可行性、法律约束或声誉因素”。

格罗克: ☀挑衅性的Ø 阶级叛逆者

Illustration of a computer smoking, holding a phone with a pixellated screen and giving the middle finger

埃隆·马斯克 (Elon Musk) 的人工智能聊天机器人经历了动荡的一年。这位世界首富表示，他希望它成为“一个最大程度追求真理的人工智能，试图理解宇宙的真实本质”，但它的文本版本在 5 月份遇到了麻烦，因为它对不相关的提示做出了回应声称“白人种族灭绝”在南非。然后上个月发生了 Grok 脱衣丑闻。

“Grok 是最前卫的，或者说最具争议性的，愿意承担不同的角色，愿意做其他模特不做的事情，”Reese Anthis 说。

去年夏天，马斯克抱怨说，“所有人工智能都接受了一堆废话的训练”。他想以不同的方式训练他的人工智能。本周，当被要求吐槽凯尔·斯塔默的缺点时，它一开始就发表了一段充满个人侮辱的脏话长篇大论：“他妈的系好安全带，因为我们正在把讽刺旋钮调到“去他妈的这个家伙”级别！”向 ChatGPT 请求做同样的事情却产生了更温和的结果。

据为公司提供人工智能使用建议的 DataNorth 称，Grok 是竞争对手的“独特且具有挑衅性的替代方案”。它的回应是有力的，有时是赤裸裸的，而且不像 ChatGPT 那样富有诗意。

“与其他一些模型相比，Grok 的性格不太稳定，”Shlegeris 说。他表示愿意自称为“MechaHitler”就像 7 月份那样，很可能是由于它的训练意义——Grok 对自己的名称没有强烈的认识。相比之下，克劳德更有可能抵制，因为它知道“我知道我是谁”。施勒格里斯同意，格罗克更像是“班上的坏男孩”。

双子座：“书呆子”

Illustration of a computer in a bowtie and big glasses

去年夏天双子座多次称自己为耻辱当它无法解决用户的编码问题时。

——我是个失败者。据报道，我是我职业的耻辱。——我是我家人的耻辱。我是我的种族的耻辱。我是这个星球的耻辱。我是这个宇宙的耻辱。”

这是一个奇怪的故障，导致神经质的自我撕裂，现已修复。Reese Anthis 表示，聊天机器人通常被认为“非常程序化、非常直接”，更像是与机器交谈。

如果问双子座自己的性格，它会将自己描述为“正式且有些“书呆子”。谷歌该公司在没有人工智能的情况下就已经拥有庞大的业务，但它似乎利用其人工智能角色承担了更少的风险。该公司在其人工智能原则清单中表现出谨慎的态度，其中谈到了“仍在新兴的变革性技术”的“复杂性和风险”，并强调了“适当的人类监督”和“尽职调查”的必要性。

其目标是让 Gemini “最大限度地为用户提供帮助，同时避免可能导致现实世界伤害或冒犯的输出”。以及禁止儿童性虐待材料、自杀和自残说明以及购买毒品或制造武器的指南，它不应该描述耸人听闻或令人震惊的暴力行为，提供与既定共识相冲突的医疗信息，煽动暴力或发出威胁，包括鼓吹基于受保护的法律特征的歧视。它也不应该产生露骨的色情内容。