提升人工智能准确性与答案生成信心 - 神经科学新闻

2024-10-19 13:45:06 英文原文

作者:Neuroscience News

摘要:研究人员提出了一种名为Answer-prefix生成(ANSPRE)的新方法,以提高大型语言模型(LLMs)在开放式问题回答中的精确性和可靠性。ANSPRE帮助LLMs生成简洁的答案,并提供更可靠的置信度分数,这对于医疗、法律和教育等高风险领域来说是一个关键特性。

通过在模型的提示中使用“答案前缀”,该方法引导大型语言模型专注于生成确切的答案短语。在多个基准测试中,ANSPRE显著提高了大型语言模型的表现,使其更加适用于实际应用。

关键事实:

  • ANSPRE通过生成简洁的答案短语和可靠的置信度分数来改进大型语言模型。
  • 它使用“答案前缀”来引导模型生成精确的答案。
  • ANSPRE显著提升了大型语言模型的表现,特别是在医疗和法律等高风险领域。

来源:日本科学技术高级学院

大型语言模型(LLM)是设计用于理解和生成人类语言的机器学习模型。最先进的LLM在开放式领域问题回答(ODQA)中展示了出色的潜力,其任务是提供事实性问题的答案。

这在金融、医疗和教育等领域特别有用。然而,大型语言模型通常依赖于其预训练的知识来回答问题,而在不断变化的世界中,这些知识可能会过时。

This shows computer code.
另一个重要的方面是LLM能够生成置信度分数,这些分数反映了模型对其答案正确性的确定程度。信用:神经科学新闻

这一限制可以通过使用带有预训练的大规模语言模型(LLM)的检索增强生成(RAG)来解决。在这种方法中,问题会通过从知识库中获取文档来进行扩充。尽管有这些进步,LLMs 通常会产生冗长的回答,提供上下文信息使得很难且耗时地识别出确切的答案短语。

另一个重要的方面是LLM能够生成置信度分数,这些分数反映了模型对其答案正确性的确定程度。在金融、法律和医疗等高风险领域,这些分数尤为重要。尽管LLM可以为特定响应生成序列概率,但这种概率通常在校准方面不可靠。

这意味着预测的置信度可能无法准确地与正确性的概率相对应,不应将其用作置信分数。无法识别确切的答案短语并生成可靠的置信分数限制了大型语言模型的实际应用。

为了应对这些限制,由阮莱明教授领导的日本科学技术高级研究所的一支研究团队,包括博士生阮国康和丁欣阮,提出了一种名为答案前缀生成(ANSPRE)的新方法。

“ANSPRE可以提高大语言模型的生成质量,使其能够输出精确的答案短语,并产生可靠的置信度分数。此外,它可以被整合到任何大语言模型和复杂架构中”,阮教授说。

他们的研究将于2024年10月19日至24日举行的第27届欧洲人工智能会议(ECAI-2024)上发表。

ANSPRE的主要思想是在LLM提示中加入一段文本序列,以导向答案短语。

这段文本被称为“答案前缀”。阮教授解释说:“以示例问题为例,‘需要两枚硬币玩的赌博游戏,在第一次世界大战期间流行的是什么?’对于这个问题的一个可能的答案前缀是,‘在第一次世界大战期间流行的,需要两枚硬币玩的赌博游戏是___。’由于大多数大语言模型是通过因果语言建模进行训练的,使用答案前缀可以让大语言模型生成空白处的确切短语。”

给定一个问题,ANSPRE 首先使用选定的少量示例行生成一个答案前缀。

研究人员证明,只需几个手工制作的例子就足以生成高质量的答案前缀。ANSPRE 然后使用现有的检索器从知识库中收集相关文档,类似于 RAG。它结合了文档、问题和答案前缀,并提示大语言模型生成答案短语。

最后,ANSPRE聚合用于回答问题的不同文档中的答案短语和置信度分数,以生成最终答案。

研究人员通过构建自省答案前缀生成(SELF-ANSPRE)展示了ANSPRE的多功能性,该方法结合了ANSPRE和自省式检索增强生成(SEFT-RAG)。SEFT-RAG通过引入反思标记来改进大语言模型的生成过程,这些标记用于决定何时以及从知识库中检索什么内容,并根据文档和答案的实用性对响应进行排名。在SELF-ANSPRE中,来自ANSPRE的置信度得分与反射标记的得分相结合以生成最终的排名得分。

研究人员在三个开放域问答(ODQA)基准测试和各种大型语言模型(LLM)架构上对ANSPRE进行了测试。结果表明,ANSPRE显著提高了预训练和指令微调的LLM性能,生成了高质量的答案和与正确性高度相关的置信度得分。

此外,SELF-ANSPRE显著增强了SEFT-RAG。他们的分析还强调了每个ANSPRE组件的重要性。

“我们的方法可以在医学诊断、法律援助和教育等关键领域导致更加简洁和准确的问题回答,并提高客户支持。从长远来看,我们的研究可以通过增加对人工智能系统的信任来促进广泛的人机协作,”阮教授指出。

总体而言,这一创新方法标志着大型语言模型的重要进步,并可以促进它们在包括敏感领域在内的更广泛的应用。

关于这个大型语言模型和人工智能研究新闻

作者:阮乐明
来源: 日本科学技術_advanced_研究所(注意:这里的"Advanced"通常译作"先进",但由于与机构名称重复,直接使用英语表述以避免混淆)或日文原名:日本科学技术学研究院
联系人:阮乐明 – 日本科学和技术先进研究所
图像:图片来自Neuroscience News

原创研究:研究结果将在会议上呈现。第27届欧洲人工智能大会(ECAI-2024)将于10月19日至24日举行­.

关于《提升人工智能准确性与答案生成信心 - 神经科学新闻》的评论


暂无评论

发表评论

摘要

摘要:研究人员提出了一种名为Answer-prefix Generation(ANSPRE)的新方法,以提高大型语言模型(LLMs)在开放式问题回答中的准确性和可靠性。通过在模型提示中使用“答案前缀”,该方法指导LLM专注于生成确切的答案短语。尽管取得了这些进展,LLM经常产生冗长的回答,提供上下文信息,这使得识别确切的答案短语变得困难且耗时。SEFT-RAG通过引入反射令牌来决定何时以及从知识库中检索什么内容,并根据文档和答案的实用性对响应进行排名,从而改进了LLM的生成过程。此外,“我们的研究在长期来看,可以促进人类与人工智能之间的广泛合作,增加人们对AI系统的信任”,Nguyen教授表示。