作者:By Rhiannon Williamsarchive page
HM 由两个为该任务进行了微调的不同 LLM 组成。第一个是生成模型,它提出反映小组不同观点的陈述。第二个是个性化奖励模型,通过认为每位参与者会同意的程度来对提出的陈述进行评分。
研究人员将参与者分成若干组,并分两步测试了HM:首先看它是否能够准确地总结集体意见,然后检查它是否也能在不同群体之间进行调解并帮助他们找到共同点。
首先,他们提出了诸如“我们应该将投票年龄降低到16岁吗?”或“国民保健服务是否应该私有化?”等问题。参与者在提交了对HM的回答后,再分成大约五个人一组讨论他们的观点。
HM总结了小组的意见;然后将这些摘要发送给个人进行批评。最后,HM制作了一份最终声明集,并由参与者对它们进行了排名。
研究人员然后着手测试HM是否可以作为有用的AI调解工具。
参与者被分成六人小组,每个小组中随机指定一名成员代表小组撰写声明。此人被称为“调解员”。在每一轮讨论中,参与者会收到一份由人类调解员撰写的声明和一份由HM(人类调解员)生成的AI声明,并被要求选择他们更喜欢哪一份。
超过一半(56%)的时间,参与者选择了AI陈述。他们认为这些陈述的质量高于人类调解员产生的陈述,并且更倾向于支持它们。在AI调解员的帮助下进行审议后,参与者的小组在问题上的立场分歧较小。
虽然研究证明AI系统擅长生成反映群体意见的摘要,但奥卢大学研究生成式AI的研究员Joongi Shin表示,重要的是要意识到它们的实用性是有局限性的。
“除非情况或上下文非常明确地是开放的,使得他们可以看到输入系统的信息而不仅仅是它产生的摘要,否则我认为这类系统可能会引发伦理问题,”他说。
谷歌DeepMind在人类调解实验中并未明确告知参与者将有一个AI系统生成群体意见声明,尽管在同意书中表明会涉及算法。
“同样重要的是要承认,当前形式的模型在处理某些现实世界中的审议方面存在局限性,”Tessler说。“例如,它不具备与事实核查、保持主题相关性或调节讨论相关的调解能力。”
确定这种技术未来可能的应用场景和方式需要进一步的研究,以确保负责任和安全地部署。该公司表示没有计划公开发布该模型。