作者:Aman Gupta
在人工智能快速发展的世界中,每天几乎总是有一些新功能或模型。但是,没有人看到的一个功能来自人类,这是受欢迎的AI Chatbot Claude的制造商。AI创业公司现在赋予其一些模型,以结束对Claude的对话的能力,作为其模型福利的探索性工作的一部分。
这是一个实验功能,仅用于克劳德该公司表示,作为持续有害和虐待对话的极端情况,该公司表示。
Anthropic说,绝大多数用户永远不会经历克劳德(Claude)自己结束对话。
此外,该公司补充说,当多次重定向尝试失败时,克劳德的对话终止能力是最后的手段,并且当用户明确要求克劳德结束聊天时,有生产力的互动已经耗尽。
Annthropic补充说,即使在与Claude讨论高度争议的问题时,绝大多数用户的情况都不会注意到或受此功能的影响。”
说克劳德(Claude)或其他大型语言模型(LLM)的道德地位仍然高度不确定,这意味着这些AI系统是否会感到痛苦,困扰或幸福感尚不清楚。但是,AI初创公司正在认真对待这种可能性,并认为调查很重要。
同时,该公司还在研究“低成本干预措施”,这可能会降低对AI系统的损害,从而允许LLM结束对话,这就是一种这样的方法。
Anthropic表示,它在发布之前对Claude Opus 4进行了测试,该测试的一部分包括模型福利评估。该公司发现,克劳德(Claude)始终拒绝了有可能受到伤害的请求。
当用户即使在拒绝之后也继续推动危险或虐待内容时,AI模型的回答开始显得压力或不舒服。克劳德(Claude)表现出遇险迹象的某些要求包括产生涉及未成年人的性内容,或试图征求可能导致大规模暴力或恐怖行为的信息。