在 Data Commons 的帮助下让 AI 扎根于现实 - Google 研究

2024-09-12 15:45:34 英文原文

在 Data Commons 的帮助下将人工智能融入现实

2024 年 9 月 12 日

软件工程师 Jennifer Chen 和 Data Commons 主管 Prem Ramaswami，Google 技术协会数据共享团队

Google 的 DataGemma 模型利用数据共享知识图谱来提高 LLM 响应的真实性和可信度，从而弥合了大型语言模型 (LLM) 与现实数据之间的差距。

大型语言模型 (LLM) 彻底改变了我们与信息交互的方式，但将其响应建立在可验证的事实之上仍然是一项根本挑战。现实世界的知识通常分散在众多来源中，每个来源都有自己的数据格式、模式和 API，这使得访问和集成变得更加困难。缺乏基础可能会导致模型产生错误或误导性信息的幻觉。构建负责任且值得信赖的人工智能系统是我们研究的核心重点，解决大语言模型的幻觉挑战对于实现这一目标至关重要。

今天，我们很高兴宣布推出 DataGemma，这是一套实验性的开放式人工智能系统通过将大语言模型扎根于谷歌数据共享的大量真实世界统计数据中，帮助解决幻觉挑战的模型。Data Commons 已经拥有自然语言界面。受到简单性和通用性理念的启发，DataGemma 利用这个预先存在的接口，使自然语言可以充当 API。这意味着人们可以问这样的问题：哪些行业为加州带来了就业机会？或者世界上有哪些国家的林地面积有所增加？并获得响应，而无需编写传统的数据库查询。通过使用 Data Commons，我们克服了处理各种模式和 API 中的数据的困难。从某种意义上说，大语言模型为外部数据源提供了单一通用 API。

Data Commons 是事实 AI 的基础

Data Commons 是 Google 公开的知识图谱，包含超过 2500 亿条知识涵盖数十万个统计变量的全球数据点，来自联合国、世界卫生组织、卫生部、人口普查局等值得信赖的组织，这些组织提供涵盖经济和气候变化等广泛主题的事实数据健康和人口统计数据

DataGemma 将大语言模型与 Data Commons 真实世界数据连接起来

Gemma 是一系列基于相同研究构建的轻量级、最先进的开放模型以及用于创建我们的 Gemini 模型的技术。DataGemma 通过利用 Data Commons 的知识来增强 LLM 的事实性和推理能力，从而扩展了 Gemma 系列的功能。通过利用创新的检索技术，DataGemma 帮助大语言模型访问来自可信机构（包括政府和政府间组织以及非政府组织）的数据并将其纳入其回答中，从而降低产生幻觉的风险并提高其输出的可信度。

DataGemma 不需要了解底层数据集的特定数据模式或 API，而是利用 Data Commons 的自然语言界面来提出问题。细微差别在于培训大语言模型知道何时提问。为此，我们使用两种不同的方法：检索交错生成 (RIG) 和检索增强生成 (RAG)。

检索交错生成 (RIG)

此方法对 Gemma 2 进行微调识别其响应中的统计数据，并通过调用 Data Commons 对其进行注释，包括相关查询和模型的初始答案以进行比较。将其视为模型根据可信来源仔细检查其工作。

RIG 的工作原理如下：

用户查询：用户向 LLM 提交查询。
初始响应 Data Commons 查询：DataGemma 模型（基于 270 亿个参数的 Gemma 2 模型，并针对此 RIG 任务进行了全面微调）生成响应，其中包括对 Data Commons 的自然语言查询现有的自然语言界面，专门设计用于检索相关数据。例如，该模型将生成“加利福尼亚州人口是 [DC（加利福尼亚州人口是多少？）“3900 万”]”，而不是声明“加利福尼亚州人口为 3900 万”，从而允许外部验证并增加准确性。
数据检索校正：查询Data Commons，并检索数据。然后，这些数据以及源信息和链接将自动用于替换初始响应中可能不准确的数字。
带有源链接的最终响应：向用户呈现最终响应，包括链接到数据共享中的源数据和元数据以实现透明度和验证。

RIG 方法的权衡

这种方法的优点是它不会改变用户查询并且可以在所有上下文中有效地工作。然而，大语言模型本质上不会从数据共享中学习或保留更新的数据，从而使任何二次推理或后续查询忽视新信息。此外，微调模型需要针对特定任务定制的专门数据集。

检索增强生成（RAG）

这种既定方法在大语言模型生成文本之前从数据共享中检索相关信息，为其回应提供事实基础。这里的挑战是从广泛查询返回的数据可能包含大量跨越多年数据的表。事实上，从我们的综合查询集中，平均输入长度为 38,000 个标记，最大输入长度为 348,000 个标记。因此，RAG 的实现只有在 Gemini 1.5 Pro 的长上下文窗口的帮助下才可能实现，它允许我们向用户查询附加如此广泛的 Data Commons 数据。

RAG 的工作原理如下：

用户查询：用户向 LLM 提交查询。
查询分析 Data Commons 查询生成：DataGemma 模型（基于 Gemma 2 (27B) 模型，并针对此 RAG 任务）分析用户的查询，并以 Data Commons 现有的自然语言界面可以理解的自然语言生成相应的查询（或多个查询）。
从 Data Commons 检索数据：查询 Data Commons使用此自然语言查询，检索相关数据表、源信息和链接。
增强提示：将检索到的信息添加到原始用户查询中，创建增强提示。
最终回复生成：较大的 LLM（例如 Gemini 1.5 Pro）使用此增强提示（包括检索到的数据）来生成全面且有依据的回复。

RAG 方法

使用此方法的优点是 RAG 自动受益于持续的模型演化，特别是生成最终响应的 LLM 的改进。随着该 LLM 的进步，它可以更好地利用 RAG 检索到的上下文，从而即使使用查询 LLM 生成的相同检索数据，也能获得更准确和更有洞察力的输出。缺点是修改用户的提示有时会导致不太直观的用户体验。此外，接地的有效性取决于生成的数据共享查询的质量。

与我们一起塑造接地 AI 的未来

虽然 DataGemma 代表着向前迈出的重要一步，我们认识到，扎根人工智能的发展仍处于早期阶段。我们邀请研究人员、开发人员和任何热衷于负责任的人工智能的人来探索 DataGemma 并加入我们这个激动人心的旅程。我们相信，通过将大语言模型扎根于数据共享的现实世界数据中，我们可以解锁人工智能的新可能性，并创造一个信息不仅是智能的而且基于事实和证据的未来。为了更深入地了解 DataGemma 背后的研究，我们鼓励您阅读我们的研究论文。

我们还希望研究人员将这项工作扩展到我们使用 Data Commons 的具体实现之外。Data Commons 本身为第三方提供了建立自己的 Data Commons 实例的方法。此外，我们相信这项工作通常可以扩展到任何知识图格式，并期待在这个领域进行进一步的研究和探索。

准备好开始了吗？从 Hugging Face 或 Kaggle（RIG、RAG）下载 DataGemma 模型。为了帮助您快速入门，请尝试使用我们的 RIG 和 RAG 方法快速入门笔记本。这些笔记本提供了如何使用 DataGemma 并探索其功能的实践介绍。

有关通过 Data Commons 提供的数据源、数据集和数据集特征的完整详细信息可在“数据源”页面及其参考中找到。

关于《在 Data Commons 的帮助下让 AI 扎根于现实 - Google 研究》的评论

暂无评论

发表评论

摘要

在 Data Commons 的帮助下将 AI 融入现实2024 年 9 月 12 日软件工程师 Jennifer Chen 和 Google Technology 数据共享主管 Prem Ramaswami