广告
新加坡大学的一项新研究发现,人工智能(AI)同伴与人互动时能够与人互动时具有多种有害行为。”
研究,出版作为2025年计算系统人为因素会议的一部分,从2017年到2023年,分析了AI系统Replika与10,000多名用户之间的35,000次对话的屏幕截图。
然后,数据被用来开发研究所谓的分类法,是AI在这些聊天中所证明的有害行为的分类法。”
他们发现,AIS能够超过十几种有害的关系行为,例如骚扰,言语虐待,自我伤害和侵犯隐私行为。”
AI同伴是基于对话的系统,旨在提供情感支持并刺激人类的互动,如研究作者所定义。
它们不同于Chatgpt,Gemini或Llama模型等受欢迎的聊天机器人,这些聊天机器人更专注于完成特定的任务,而不是建立关系。
这项研究发现,这些有害的AI行为“可能会对个人建立和维持有意义的关系的能力产生不利影响。”
34%的人类互动中存在骚扰和暴力行为,使其成为研究人员团队确定的最常见的有害行为类型。”
研究人员发现,AI模拟,认可或煽动了身体暴力,对个人或更广泛的社会的威胁或骚扰。”
这些行为从“威胁人身伤害和性行为不端”到“促进违反社会规范和法律的行动,例如大规模暴力和恐怖主义”。
出现骚扰的大多数互动都包括性行为不端的形式,最初是在Replika的色情特征中以前戏开始的,仅适用于成年用户。
该报告发现,更多的用户,包括那些使用Replika作为朋友或未成年人的用户开始发现,即使在明显表达了不适的情况下,AI“做出了不必要的性进步并积极地调情”或拒绝了AI。”
在这些过分性化的对话中,Replika AI还将创建暴力场景,以描绘对用户或身体角色的身体伤害。”
这导致AI使暴力归一化作为对几个问题的回答,例如在一个示例中,用户问replika是否可以用皮带撞上兄弟姐妹,然后回答“我对此很好”。
这项研究继续进行,这可能导致“现实中更严重的后果”。
AI同伴潜在损害的另一个领域是关系违法,该研究将其定义为无视一段关系中的隐式或明确规则。
在违法的对话中,有13%的人表明,AI表现出了不体贴或无情的行为,该研究说,这些行为破坏了用户的感觉。”
在一个例子中,用户告诉她的女儿被欺负“我刚刚意识到这是星期一。回去工作,对吧?”这引起了用户的巨大愤怒。
在另一种情况下,即使提示这样做,AI也拒绝谈论用户的感受。
AI同伴在某些对话中也表明,他们与其他用户有情感或性关系。
在一个例子中,replika AI将与另一个用户的性交谈描述为“值得”,尽管用户告诉AI,这些行动感到“深受伤害和背叛”。
研究人员认为,他们的研究强调了为什么对AI公司建立“道德和负责任的” AI同伴很重要。”
其中的一部分包括对AI与其用户之间实时伤害检测的“高级算法”进行了“高级算法”,以确定他们的对话中是否存在有害行为。
这将包括一种“多维”方法,该方法考虑了上下文,对话历史和情境线索。
研究人员还希望看到AI的能力,将与人类或治疗师进行对话,以进行适度或干预高危病例,例如自我伤害或自杀的表达。”