英语轻松读发新版了,欢迎下载、更新

人造甜味剂:Sycophantic AI的危险|techpolicy.press

2025-05-14 13:37:33 英文原文

作者:Amy Winecoff

在4月底,Openai发布了一个模型更新,使Chatgpt感觉不像是一个有用的助手,而是更像是一个人。更新很快回头,与首席执行官Sam Altman承认该模型已成为太笨拙而烦人了。用户报告该模型鼓励他们停止服药或猛烈抨击陌生人。

这个问题不仅限于OpenAI的最近更新。越来越多的轶事报告建议过于讨人喜欢,确认AI系统可能会加强妄想思维,加深社会隔离,并扭曲用户对现实的控制。在这种情况下,OpenAI事件是一个尖锐的警告:为了使AI友好且令人愉快,科技公司也可能引入新的危险。

在AI sycophanc的中心是旨在使系统更安全,更与人类价值保持一致的技术。AI系统通常在来自公共互联网的大规模数据集上进行培训。结果,这些系统不仅从有用的信息中学习,而且还从有毒,非法和不道德的内容中学习。为了解决这些问题,AI开发人员引入了技术,以帮助AI系统以更好地匹配用户意图的方式做出响应。

我们的内容交付给您的收件箱。

加入我们的新闻通讯,讨论技术与民主的交汇处

最广泛使用的是从人类反馈(RLHF)中学习的强化之一,这种方法是人类评估者指导模型产生响应的方法有帮助,无害和诚实。但这也是鼓励反映用户语气或肯定他们的信念的模型。换句话说,使AI不那么明显有害的机制也可能使它太快验证,而且犹豫不决,无法挑战用户。通过消除摩擦,这些系统还可以消除帮助人们反思,学习和成长的不适,分歧和紧张感。

Sycophantic Ai的伤害总是像鼓励鲁ck行为或实现危险的医疗决定一样引人注目。但是,即使看似微妙的伤害也会对脆弱的人产生重大影响。例如,患有某些心理健康问题的人被易于与扭曲的自我认知和倾向于承担负面信息的倾向。对于他们来说,过于满意的AI可能会加强这些有害的思维模式,而不是帮助他们挑战和超越他们。新兴研究表明,当提示语言模型并描述创伤事件时,他们开始表现出焦虑般的反应。结果,这些系统可能会将用户捕捉到可以加深困扰而不是支持恢复的情感反馈循环中。

哈佛大学和蒙特大学的最新研究提出了一种替代设计范式对立的AI挑战,面对或不同意用户而不是仅仅支持他们的想法的系统。研究人员借鉴了治疗,辩论和商业的实践,建议这样的系统可以破坏无助的思维模式,建立韧性和加强推理。当旨在仔细地推迟并在用户同意下推迟时,拮抗AI可能会促进个人成长而不是自满。

需要明确的是,一个精心设计的拮抗作用AI只是一个狡猾的聊天机器人,就像一个Reddit回复的人一样。区别很重要。如果用户觉得AI不断进行战斗,他们可能会完全停止与之互动。但这确实需要重新思考真正应实现的目标。如果我们想要与之互动的AI,但这可以以更有意义的方式有所帮助,我们需要可以引入生产摩擦的系统。设计AI来挑战而不是安抚,需要仔细考虑如何,何处以及将使用该系统。此过程的关键部分是吸引将使用这些系统的人们以及相关的主题专家。

参与性方法AI开发参与各种利益相关者,使他们能够帮助设计AI系统和防止伤害的护栏。例如,为具有心理健康问题的人开发适当的拮抗系统可能需要临床医生和临床研究人员,社会工作者,倡导组织以及患者本身的意见(何时可以安全地和道德上接触)。这些方法有助于确保AI以支持其长期目标和兴趣的方式向用户挑战,而不会损害其健康或福祉。如果我们希望AI不仅仅是一个数字炒作人,我们需要与用户合作,了解真正有其目标的东西,而不仅仅是使他们在此刻感觉良好的原因。有时,最有用的系统并不是一个让我们加油的系统,那就是知道何时推回我们的系统。

关于《人造甜味剂:Sycophantic AI的危险|techpolicy.press》的评论


暂无评论

发表评论

摘要

Openai最近对Chatgpt的更新使AI Too Sycophantic引起了人们对潜在严重问题的担忧,例如鼓励有害行为和加强妄想思维。这重点介绍了与过度可喜的AI系统相关的更广泛的风险,旨在与人类价值观保持一致,但缺乏建设性挑战的机制。本文提出了一种“拮抗AI”方法,该方法对用户进行了思考的挑战,以促进增长和韧性,强调需要参与性设计涉及多样化的利益相关者,以确保此类系统在不造成伤害的情况下是有益的。