当前部署大型语言模型 (LLM) 的一个主要挑战是它们无法有效管理需要生成和检索信息的任务。虽然大语言模型擅长生成连贯且上下文相关的文本,但他们很难处理检索任务,其中涉及在生成响应之前获取相关文档或数据。这种低效率在问答、多跳推理和实体链接等任务中变得尤为明显,在这些任务中,实时、准确的检索对于生成有意义的输出至关重要。困难在于,这些模型通常将生成和检索视为单独的过程,这增加了计算复杂性、推理时间和错误风险,尤其是在多轮对话或复杂的推理场景中。
为了应对这一挑战,以前的方法(例如检索增强生成(RAG))尝试通过检索相关数据然后将其传递给单独的模型进行生成,将检索集成到生成过程中。虽然这个两步过程使模型能够根据外部知识生成响应,但它带来了很大的局限性。首先,它需要单独的模型进行检索和生成,从而导致计算开销增加和效率低下。其次,这两个模型在不同的表征空间中工作,这限制了它们流畅交互的能力,并且需要额外的前向传递,从而进一步减慢了过程。在多轮对话或复杂查询中,这种分离还需要重写查询,这可能会传播错误并增加任务的整体复杂性。这些限制使得现有方法不适合需要检索和生成的实时应用。
浙江大学的研究人员推出了 OneGen,这是一种新颖的解决方案,它将检索和生成过程统一为大语言模型内的单个前向传递。通过将自回归检索标记集成到模型中,OneGen 使系统能够同时处理这两项任务,而无需多次前向传递或单独的检索和生成模型。这种创新方法显着减少了计算开销和推理时间,提高了大语言模型的效率。OneGens 的关键贡献在于它能够使用在用于文本生成的同一正向传递过程中生成的特殊检索标记,确保检索不会损害模型的生成性能。这种统一的方法是对以前方法的重大改进,为需要检索和生成的任务提供了简化、高效的解决方案。
OneGen 的技术基础涉及使用检索标记增强标准 LLM 词汇表。这些标记是在自回归过程中生成的,用于检索相关文档或信息,而不需要单独的检索模型。在训练期间使用对比学习对检索标记进行微调,而模型的其余部分继续使用标准语言模型目标进行训练。这种方法确保检索和生成过程在同一个前向传递中无缝发生。OneGen 已在多个数据集上进行了评估,包括用于问答任务的 HotpotQA 和 TriviaQA,以及用于实体链接的基于维基百科的数据集。这些数据集是该领域的标准基准,有助于展示 OneGen 在不同 NLP 任务中的多功能性和效率。
与 Self 等现有模型相比,OneGen 在需要检索和生成的各种任务中表现出了卓越的性能-抹布和砂砾。它在准确性和 F1 分数方面取得了显着的进步,特别是在多跳问答和实体链接任务中。例如,OneGen 在六个实体链接数据集上的准确性提高了 3.2 分,多跳 QA 任务的 F1 分数提高了 3.3 分。此外,它在检索任务中保持了高效的性能,同时增强了模型的生成能力。这些结果凸显了该框架简化检索和生成过程的能力,从而在不牺牲任一任务质量的情况下实现更快、更准确的响应。
总而言之,OneGen 为该问题引入了一种高效的一次性解决方案。在大语言模型中整合检索和生成的挑战。通过利用检索标记和对比学习,它克服了以前将这些任务分成不同模型的方法的低效性和复杂性。这个统一的框架提高了大语言模型在需要根据检索到的信息实时生成的任务中的速度和准确性。OneGen 在多个基准测试中表现出明显的性能改进,有可能彻底改变大语言模型处理涉及检索和生成的复杂任务的方式,使它们更适用于现实世界、高速和高精度的应用程序。
查看论文和 GitHub。这项研究的所有功劳都归功于该项目的研究人员。另外,不要忘记在 Twitter 上关注我们并加入我们的 Telegram 频道和 LinkedIn 群组。如果您喜欢我们的工作,您一定会喜欢我们的时事通讯。
不要忘记加入我们的 50k ML SubReddit
Aswin AK 是 MarkTechPost 的咨询实习生。他正在印度理工学院克勒格普尔分校攻读双学位。他对数据科学和机器学习充满热情,在解决现实生活中的跨领域挑战方面拥有深厚的学术背景和实践经验。