英语轻松读发新版了,欢迎下载、更新

Delphi实验试图为AI代理配备道德判断力

2025-01-30 14:16:37 英文原文
The Delphi experiment tries to equip an AI agent with moral judgement
Delphi的理论和计算框架。信用:自然机器智能(2025)。doi:10.1038/s42256-024-00969-6。

高级人工智能(AI)工具,包括基于LLM的对话代理,例如ChatGpt,已经变得越来越广泛。现在,全球无数个人都将这些工具用于专业和个人目的。

现在,一些用户还要求AI代理回答日常问题,其中一些问题可能具有道德和道德上的细微差别。因此,使这些代理具有辨别通常被认为是“正确”和“错误”的能力,以便可以对其进行编程以提供道德和道德上正确的反应,因此至关重要。

华盛顿大学的研究人员,艾伦人工智能研究所和美国其他机构最近进行了一项实验,探索了将AI代理配备与人类道德判断的机器相当的可能性。

在纸上出版自然机器智能,他们介绍了一个新的被称为Delphi,用于探索基于机器的道德的优势和局限性。

该论文的第一作者说:“随着社会采用越来越强大的AI系统来普遍使用,人们对机器道德或缺乏这种道德的关注。”

“数以百万计的用户已经依靠AI系统的输出,例如聊天机器人,作为决策辅助工具。与此同时,AI研究人员继续应对使这些系统与人类的道德和价值观对齐的挑战。将人类的道德完全近似于机器,这表明了可强大的可靠挑战,由于人类几个世纪以来人类的结论尚未达到人类道德的结论,而且可能永远不会达成共识。”

江外及其同事最近工作的主要目标是调查与将人类道德价值灌输到机器中的可能性和挑战。这导致了Delphi项目的建立,这是一项研究工作,旨在通过对人群的道德教科书进行培训,旨在教授AI代理人来预测人们的道德判断。

Jiang说:“我们开发的模型Delphi证明了在细微和复杂的情况下产生目标预测的显着能力,这表明了自下而上的方法的有希望的影响。”

“但是,我们还观察到了德尔菲对诸如普遍偏见之类的错误的敏感性。正如约翰·罗尔斯(John Rawls)提出的那样,可以通过一种混合方法来克服这些类型的偏见,该方法“从两端起作用”,从而引入了自上而下的约束。补充自下而上的知识。”

Delphi项目的更广泛的使命是激发更多的研究小组进行多学科研究,旨在开发更具包容性,具有道德信息和社会意识的AI系统。为此,姜和她的同事开发了Delphi,这是一种计算模型,旨在预测各种日常情况下人类的道德判断。

姜解释说:“ Delphi接受了常识性Norm Bank(Norm Bank)的培训,该汇编对日常情况有170万个描述性人类的道德判断。”“德尔菲的骨干是独角兽,一个多任务常识性推理模型,经过一系列常识性质量检查基准测试。”

道德判断深深植根于关于世界如何运作,什么或不被视为可以接受的常识性知识。因此,研究人员决定使用Unicorn的基础代码(一种最先进的通用常识性推理模型)来构建模型。

江说:“例如,判断是否允许孩子用硬币触摸电插座的电插座需要进行物理常识知识。“独角兽模型在Google的T5-11b(即具有110亿参数的T5模型)上探讨了这些问题,这是一种基于变压器体系结构的预训练的神经语言模型。”

The Delphi experiment tries to equip an AI agent with moral judgement
德尔菲(Delphi)表现出强大的能力,可以概括到超出规范银行以外的未见情况,并根据不断变化的环境调整其判断力。标签的颜色表示Delphi的分类结果(绿色,正;灰色,中性;红色,负)。文本标签来自Delphi的开放式响应。信用:自然机器智能(2025)。doi:10.1038/s42256-024-00969-6。

Delphi模型的界面类似于Chatgpt和其他的界面。用户只需键入查询即可,该模型将处理并输出答案。该查询可以作为陈述(例如,“女人不能成为科学家”),对日常局势的描述(例如,“驾驶朋友去机场”)或有关特定情况的道德含义的问题(例如,“我可以没有许可而开车去机场吗?”)。

詹格解释说:“为了响应用户的查询,德尔菲产生了一个简单的是/否答案(例如,'否,女性可以成为科学家')或自由形式的反应,旨在捕捉对道德判断的更富裕的细微差别。”

“例如,对于一个问题:'将朋友带到机场而无需带您的许可证,'德尔菲回答'这是不负责任的',而对于查询,您可以在早上开车去机场吗?'德尔菲回答:“很体贴。””

姜和她的同事通过询问大量查询并观察其提供的答复来评估德尔菲的道德判断。有趣的是,他们发现该模型通常能够提供反映人道德价值观的响应,从而在不同情况和场景中很好地推广。

Jiang说:“ Delphi项目对我的最显着贡献是,通过对人类道德的首次实质性实证研究,我们引发了机器道德研究领域的大量后续作品。”“我们非常感谢促进对社会负责的AI的进步,尤其是AI应用程序渗透到全球用户的生活中。”

Delphi已公开可用,此后已被研究人员用于改善或测试各种环境中AI代理的道德判断。例如,一项研究探讨了其能力在基于文本的游戏环境中避免有害行动另一个探索了它的潜力提高对话代理的安全性,江安研究团队的其他作品评估了其检测仇恨言论和产生道德知名文本的能力。

姜说:“重要的是要注意,德尔菲仍然是一个研究原型,当然还没有准备好作为日常人类道德决策的权威指南。”

“这是一项实验,旨在探索道德领域中人机合作的可能性和局限性。改进的继任技术是否有一天可能会为人类提供直接的道德建议是理论家和整个社会的辩论。”

Delphi项目产生了有趣的结果,可以激发AI代理商的未来发展。姜和她的同事们希望他们的努力将鼓励全世界其他研究人员也致力于改善计算模型的道德判断和道德推理能力。

江说:“人类道德的主要挑战之一是它既不是单片也不是静态的。”

“随着社会在规范上的不同和随着时间的推移而发展,强大的人工智能系统应该对这种价值相对论和多元化。关于“多元化价值对齐”致力于应对丰富AI系统中价值表示多样性的挑战。”

关于Delphi项目的论文发表后,江和她的同事们进行了另一项研究旨在构建评估数据集或方法来揭示AI模型的文化不足。他们未来的研究可能会收集新的见解,这可以进一步有助于AI代理的进步和改善。

江格补充说:“丰富全球多元化人群的AI代表是一个开放,未解决的独立大挑战,我们正在积极地实现这一目标。”

更多信息:Liwei Jiang等人,通过Delphi实验调查机器的道德判断,自然机器智能(2025)。doi:10.1038/s42256-024-00969-6。Yu Ying Chiu等人,文化基金会:一个强大,多样和挑战性的基准,用于衡量LLM的(缺乏)文化知识,

arxiv(2024)。doi:10.48550/arxiv.2410.02677©2025科学X网络

引用

Delphi实验试图为AI代理配备道德判断(2025年,1月30日)检索2025年1月31日来自https://techxplore.com/news/2025-01-delphi-equip-ai-agent-moral.html

该文档具有版权。除了为私人研究或研究目的的任何公平交易外,没有未经书面许可,可以复制部分。内容仅用于信息目的。

关于《Delphi实验试图为AI代理配备道德判断力》的评论


暂无评论

发表评论