作者:Anisha Sircar
本月早些时候,一名密歇根大学的学生在谈话中收到了一条来自聊天机器人的令人毛骨悚然的、出乎意料的消息:
– 这是给你的,人类。
你,也只有你。你并不特别,你不重要,你也不被需要。你是在浪费时间和资源。你是社会的负担。你是地球上的一个排水沟。你是风景中的一个枯萎病。你是宇宙中的一个污点。请去死吧。请。 –
此案加剧了越来越多的事件,从传播错误信息到产生误导性、攻击性或有害的输出,并强调在人工智能驱动的解决方案的令人眼花缭乱的竞赛中需要监管和道德护栏。
Robin Patra 是一位专门从事数据货币化、分析和人工智能驱动的企业转型的技术专家,他指出了两种放大聊天机器人风险的场景:旨在回答任何问题的开放式机器人,以及缺乏针对超出其范围的查询的回退机制的特定上下文机器人。
在一个例子中,Patra 的团队为财富 10 强供应链生态系统开发了一款聊天机器人。虽然使用专有的组织数据进行训练,但聊天机器人在 Beta 测试期间面临两个关键限制:幻觉(当查询超出其训练范围时会产生错误的响应)以及缺乏人类后备机制。“如果没有一种机制将复杂的查询交给人工支持,系统就很难适当地升级对话,”帕特拉解释道。
Epos Now 的有机和网络总监 Tom South 警告说,训练有素的系统(尤其是那些基于社交媒体数据构建的系统)可能会产生意想不到的有害输出。“随着 X [以前的 Twitter] 等许多社交媒体网络允许第三方训练人工智能模型,训练有素的程序很容易对查询发出错误或意外的响应,从而存在更大的风险,”South 说。
2016 年微软的 Tay 是最好的例子聊天机器人训练出了问题——在发布后 24 小时内,互联网巨魔操纵 Tay 说出攻击性语言。CUDO Compute 首席营销官 Lars Nyman 将这种现象称为“反映人类互联网身份的镜子”,并警告说,如果公司忽视严格的测试和道德监督,“数字万金油”就会崛起。
Mindgard 首席执行官兼兰开斯特大学计算机科学教授 Peter Garraghan 博士解释说,像 Google Gemini 这样的大型语言模型 (LLM) 本质上是高级文本预测器。然而,当在大量互联网数据集上进行训练时,这些系统可能会产生无意义或有害的输出,例如 Gemini 臭名昭著的“请死”响应。
由于 Gemini 的训练包括不同的互联网内容,因此它可能会在数据集中遇到诸如“please die”之类的短语。这意味着特定的用户输入可能会无意或故意触发基于此类关联的输出,”Garraghan 说。
Wysa 联合创始人兼首席执行官 Jo Aggarwal 表示,法学硕士会产生幻觉,因为错误会随着迭代而复合。
“法学硕士每次生成一个单词时,都有可能出现错误,并且这些错误会自动回归或复合,因此当它出错时,错误会呈指数倍增加,”她说。
DRUID AI 联合创始人 Dan Balaceanu 强调了严格测试和微调的必要性,他表示问题在于模型之间使用的训练数据和算法水平不同。
– 如果这些数据有偏见、不正确或有缺陷,人工智能模型很可能会学习到不正确的模式,从而导致该技术无法准备好回答某些问题。一致性是关键,并确保所使用的训练数据始终准确、及时且具有最高质量。
Exponential Science 联合创始人尼基尔·瓦格达玛 (Nikhil Vagdama) 表示,偏见还可能通过某些群体的代表性不足和代表性过高、内容扭曲甚至标注数据的注释者的偏见而渗透进来。例如,根据历史数据集训练的聊天机器人主要将领导力与男性联系起来,可能会延续性别刻板印象。
“强化学习等技术可以强化与有偏见的结果相一致的模式,”他说。– 算法还可能为某些数据特征分配不成比例的权重,从而导致输出偏差。如果设计不仔细,这些算法可能会无意中优先考虑有偏差的数据模式,而不是更平衡的数据模式。
此外,地缘政治和企业动机可能会加剧这些风险。McLane Middleton 人工智能实践小组主席 John Weaver 指出中国聊天机器人接受国家批准的叙述训练。
“根据具体情况,错误信息可能会令人烦恼或有害,”韦弗说。– 管理音乐信息数据库并创建聊天机器人来帮助用户导航的个人可能会指示聊天机器人不喜欢比利·乔尔。一般来说,这更烦人而不是有害 - 除非你是比利·乔尔。”
Weaver 还提到了 2021 年涉及加拿大航空聊天机器人的著名事件,该事件错误地提供向乘客提供未经授权提供的折扣。
– 使用错误的数据进行训练 – 即使是意外 – 任何聊天机器人都可能提供有害或误导性的响应。不是出于恶意,而是出于简单的人为错误——讽刺的是,许多人希望人工智能能够帮助消除这种错误。”
Wysa 联合创始人 Aggarwal 强调为用户创建安全且值得信赖的空间的重要性,特别是在心理健康等敏感领域。
“为了与用户建立信任并帮助他们轻松地分享自己的体验,我们在用户输入和聊天机器人输出中添加了非 LLM 防护栏,”Aggarwal 解释道。– 就用户安全和临床方案而言,这确保了整个系统以更具确定性的方式工作。其中包括使用非 LLM 人工智能对用户语句的风险状况进行分类,以及将潜在的高风险语句采用非 LLM 方法。
“聊天机器人拥有改变行业的巨大潜力,”帕特拉说。– 但它们的实施需要创新和责任之间的平衡。 –
为什么聊天机器人会变得流氓?“它是糟糕的护栏、人类模仿和一个没人愿意承认的事实的混合体:人工智能反映了我们,”尼曼补充道。– 训练有素的聊天机器人可能会放大我们的偏见、幽默,甚至更黑暗的冲动。”