尽管大型语言模型具有令人印象深刻的能力,但它们远非完美。这些人工智能模型有时会“幻觉”生成不正确或没有支持的信息来回应查询。
由于这种幻觉问题,大语言模型的响应通常会由人工事实核查员进行验证,尤其是在医疗或金融等高风险环境中部署模型时。然而,验证过程通常需要人们阅读模型引用的冗长文档,这项任务繁重且容易出错,可能会阻止一些用户部署模型。生成式AI模型首先。
为了帮助人类验证者,麻省理工学院的研究人员创建了一个用户友好的系统,使人们能够更快地验证大型语言模型的回复。这个工具被称为SymGen一个LLM生成带有引用的回答,这些引用直接指向源文档中的特定位置,例如数据库中的某个单元格。
用户可以将鼠标悬停在文本回复中高亮显示的部分,以查看模型生成特定单词或短语时使用的数据。同时,未被高亮显示的部分向用户展示了哪些短语需要额外的关注和核查。
“我们赋予人们有选择地关注文本中需要更加重视的部分的能力。最终,SymGen 可以让人们更确信模型的回应,因为他们可以轻松地仔细查看以确保信息已经被验证,”电气工程与计算机科学研究生、论文共同第一作者 Shannon Shen 表示。关于SymGen的论文.
通过一项用户研究,沈和他的合作者发现,与手动程序相比,SymGen将验证时间加快了约20%。通过使人类更快、更容易地验证模型输出,SymGen可以帮助人们在各种现实场景中识别大型语言模型中的错误,从生成临床记录到总结金融市场报告。
沈与论文的共同第一作者、同为EECS研究生的卢卡斯·托罗巴·亨宁;EECS研究生阿尼鲁迪亚“安妮”·努里斯玛;Good Data Initiative总裁伯纳德·加普;资深作者、EECS教授、MIT Jameel诊所成员以及计算机科学与人工智能实验室(CSAIL)临床机器学习小组负责人大卫·松塔格;以及EECS助理教授和CSAIL成员尤恩·金共同撰写了这篇论文。该研究最近在语言建模会议上进行了展示。
符号引用
为了协助验证,许多大型语言模型被设计为在生成语言回复的同时提供引用,指向外部文档,以便用户可以进行检查。然而,沈说,这些验证系统通常是在事后考虑的,没有考虑到人们筛选大量引用所需的努力。
“生成式AI的目的是减少用户完成任务所需的时间。如果你需要花费数小时阅读所有这些文档来验证模型所说的内容是否合理,那么实际上拥有生成内容并没有太大帮助,”沈说。
研究人员从将要进行这项工作的人类的角度出发解决了验证问题。
SymGen用户首先向大语言模型提供它可以参考的数据,例如包含篮球比赛统计数据的表格。然后,研究人员并没有立即要求模型完成任务(如根据这些数据生成比赛摘要),而是进行一个中间步骤:他们提示模型以符号形式生成其响应。
使用此提示,每次模型在其响应中引用词汇时,必须写出包含所引用信息的具体数据表单元格。例如,如果模型想要引用“波特兰开拓者”的短语,则需要用包含这些单词的数据表中的单元格名称替换该文本。
“由于我们有一个中间步骤,将文本以符号格式存储,因此我们可以进行非常精细的引用。对于输出中的每一小段文本,我们都可以准确地说出它对应于数据中的哪个部分,”Torroba Hennigen说。
SymGen然后使用基于规则的工具解析每个引用,该工具将数据表中对应的文本复制到模型的响应中。
“这样一来,我们就知道它是逐字拷贝的,所以我们知道对应实际数据变量的部分不会有错误,”沈补充道。
简化验证流程
该模型能够生成符号响应是因为它的训练方式。大型语言模型会被喂入来自互联网的海量数据,其中一些数据以“占位符格式”记录,即用代码替代实际值。
当SymGen提示模型生成符号响应时,它使用类似的结构。
“我们以特定的方式设计提示词,以利用大模型的能力,”沈补充道。
在用户研究中,大多数参与者表示SymGen使得验证LLM生成的文本变得更加容易。他们使用SymGen验证模型响应的速度比使用标准方法快大约20%。
然而,SymGen 受限于源数据的质量。大型语言模型可能会引用一个不正确的变量,而人工验证者可能毫无察觉。
此外,用户必须拥有结构化的源数据,如表格形式的数据,以便输入到SymGen中。目前,该系统仅支持表格数据。
展望未来,研究人员正在增强SymGen,使其能够处理任意文本和其他形式的数据。凭借这一能力,它可以帮助验证AI生成的法律文件摘要的部分内容。他们还计划与医生合作测试SymGen,以研究其如何识别AI生成的临床总结中的错误。
本工作部分由Liberty Mutual和麻省理工学院智能探索计划资助。