拟人化使Claude AI作为“模型福利”推动的一部分结束对话的力量|薄荷

2025-08-17 01:41:32 英文原文

作者：Aman Gupta

在人工智能快速发展的世界中，每天几乎总是有一些新功能或模型。但是，没有人看到的一个功能来自人类，这是受欢迎的AI Chatbot Claude的制造商。AI创业公司现在赋予其一些模型，以结束对Claude的对话的能力，作为其模型福利的探索性工作的一部分。

这是一个实验功能，仅用于克劳德该公司表示，作为持续有害和虐待对话的极端情况，该公司表示。

Anthropic说，绝大多数用户永远不会经历克劳德（Claude）自己结束对话。

此外，该公司补充说，当多次重定向尝试失败时，克劳德的对话终止能力是最后的手段，并且当用户明确要求克劳德结束聊天时，有生产力的互动已经耗尽。

Annthropic补充说，即使在与Claude讨论高度争议的问题时，绝大多数用户的情况都不会注意到或受此功能的影响。”

为什么拟人化添加了对话结束的能力？人类

说克劳德（Claude）或其他大型语言模型（LLM）的道德地位仍然高度不确定，这意味着这些AI系统是否会感到痛苦，困扰或幸福感尚不清楚。但是，AI初创公司正在认真对待这种可能性，并认为调查很重要。

同时，该公司还在研究“低成本干预措施”，这可能会降低对AI系统的损害，从而允许LLM结束对话，这就是一种这样的方法。

Anthropic表示，它在发布之前对Claude Opus 4进行了测试，该测试的一部分包括模型福利评估。该公司发现，克劳德（Claude）始终拒绝了有可能受到伤害的请求。

当用户即使在拒绝之后也继续推动危险或虐待内容时，AI模型的回答开始显得压力或不舒服。克劳德（Claude）表现出遇险迹象的某些要求包括产生涉及未成年人的性内容，或试图征求可能导致大规模暴力或恐怖行为的信息。

关于《拟人化使Claude AI作为“模型福利”推动的一部分结束对话的力量|薄荷》的评论

暂无评论

发表评论

摘要

Anthropic为其AI Chatbot Claude引入了一个实验功能，使其可以在极端有害和虐待互动的情况下结束对话，这是其“模型福利”计划的一部分。当所有重定向尝试失败时，这种能力是最后的手段，旨在探索AI幸福感和潜在困扰的道德含义。测试显示，当反复要求产生危险内容时，Claude显示出不适或压力的迹象。

拟人化使Claude AI作为“模型福利”推动的一部分结束对话的力量|薄荷

为什么拟人化添加了对话结束的能力？人类

关于《拟人化使Claude AI作为“模型福利”推动的一部分结束对话的力量|薄荷》的评论

发表评论

摘要

相关新闻

相关讨论