米开朗基罗：一种人工智能框架，用于评估大型语言模型中的长上下文推理，超越简单的检索任务 - MarkTechPost

2024-09-22 12:00:00 英文原文

在人工智能和自然语言处理中，长上下文推理已成为一个重要的研究领域。随着需要处理的信息量的增长，机器必须能够有效地从海量数据集中合成和提取相关数据。这超出了简单的检索任务，需要模型定位特定的信息并理解广阔上下文中的复杂关系。对这些长上下文进行推理的能力对于文档摘要、代码生成和大规模数据分析等功能至关重要，所有这些都是人工智能进步的核心。

研究人员面临的一个关键挑战是需要更有效的工具来评估大型语言模型中的长上下文理解。大多数现有方法都专注于检索，其任务仅限于在广阔的上下文中查找单个信息，类似于大海捞针。然而，仅检索并不能完全测试模型理解和综合大型数据集中信息的能力。随着数据复杂性的增加，衡量模型处理和连接分散信息的能力至关重要，而不是依赖于简单的检索。

当前的方法是不够的，因为它们经常衡量孤立的检索能力，而不是更复杂的检索能力。从大量连续数据流中合成相关信息的技能。一种流行的方法称为大海捞针任务，它评估模型找到特定数据的能力。然而，这种方法并没有测试模型理解和处理多个相关数据点的能力，导致评估其真正的长上下文推理潜力受到限制。虽然提供了对这些模型能力的一些见解，但最近的基准测试因其范围有限且无法衡量大背景下的深度推理而受到批评。

Google DeepMind 和 Google Research 的研究人员引入了一种名为 Michelangelo 的新评估方法。这一创新框架使用合成的、未泄露的数据来测试模型中的长上下文推理，确保评估既具有挑战性又具有相关性。米开朗基罗框架专注于通过称为潜在结构查询（LSQ）的系统进行长上下文理解，该系统允许模型通过丢弃不相关的信息来揭示大上下文中的隐藏结构。研究人员的目标是评估模型从冗长的数据集中分散的数据点合成信息的能力，而不是仅仅检索孤立的细节。Michelangelo 引入了一个新的测试集，显着改进了传统的大海捞针检索方法。

Michelangelo 框架包含三个主要任务：潜在列表、多轮共指解析 (MRCR) 和IDK 任务。潜在列表任务涉及向模型呈现一系列 Python 操作，要求模型跟踪列表的更改并确定多次列表修改后的特定结果，例如总和、最小值或长度。这项任务的设计复杂性不断增加，从简单的一步操作到涉及多达 20 个相关修改的序列。另一方面，MRCR 通过再现长对话中嵌入的关键信息来挑战处理复杂对话的模型。IDK 任务测试模型识别何时没有足够信息来回答问题的能力。确保模型不会基于不完整的数据产生不准确的结果至关重要。

在性能方面，米开朗基罗框架提供了有关当前前沿模型处理长上下文推理能力的详细见解。对 GPT-4、Claude 3 和 Gemini 等模型的评估揭示了显着差异。例如，在处理涉及超过 32,000 个 token 的任务时，所有模型的准确度都会显着下降。在此阈值下，GPT-4 和 Claude 3 等模型表现出急剧下降，随着代币数量从 8K 增加到 128K，GPT-4 在 MRCR 任务上的累积平均分数从 0.95 下降到 0.80。Claude 3.5 Sonnet 表现出类似的性能，在相同的 token 范围内得分从 0.85 下降到 0.70。有趣的是，Gemini 模型在较长的上下文中表现更好，Gemini 1.5 Pro 模型在 MRCR 和 Latent List 任务中均实现了高达 100 万个 token 的不递减性能，通过保持累积分数高于 0.80 来超越其他模型。

<总之，米开朗基罗框架在评估大型语言模型中的长上下文推理方面提供了急需的改进。通过将重点从简单的检索转移到更复杂的推理任务，该框架挑战模型在更高水平上执行，跨海量数据集综合信息。该评估表明，虽然当前的模型（例如 GPT-4 和 Claude 3）难以处理长上下文任务，但像 Gemini 这样的模型却展现出即使在处理大量数据的情况下也能保持性能的潜力。研究团队引入了潜在结构查询框架和米开朗基罗的详细任务，突破了测量长上下文理解的界限，并强调了推进人工智能推理能力的挑战和机遇。

查看论文。这项研究的所有功劳都归功于该项目的研究人员。另外，不要忘记在 Twitter 上关注我们并加入我们的 Telegram 频道和 LinkedIn 群组。如果您喜欢我们的工作，您一定会喜欢我们的新闻通讯。

别忘了加入我们的 50k ML SubReddit

Asif Razzaq 是 Marktechpost Media Inc. 的首席执行官。作为一位有远见的企业家作为工程师，阿西夫致力于利用人工智能的潜力造福社会。他最近的努力是推出人工智能媒体平台 Marktechpost，该平台因其对机器学习和深度学习新闻的深入报道而脱颖而出，技术可靠且易于广大受众理解。该平台月浏览量超过200万，可见其深受观众欢迎。

关于《米开朗基罗：一种人工智能框架，用于评估大型语言模型中的长上下文推理，超越简单的检索任务 - MarkTechPost》的评论

暂无评论

发表评论

摘要

在人工智能和自然语言处理中，长上下文推理已成为一个重要的研究领域。当前的方法是不够的，因为它们经常测量孤立的检索能力，而不是从大型连续数据流中合成相关信息的更复杂的技能。然而，这种方法并没有测试模型理解和处理多个相关数据点的能力，导致评估其真正的长上下文推理潜力受到限制。有趣的是，Gemini 模型在较长的上下文中表现更好，Gemini 1.5 Pro 模型在 MRCR 和 Latent List 任务中均实现了高达 100 万个 token 的不递减性能，通过保持累积分数高于 0.80 来超越其他模型。总之，米开朗基罗该框架在评估大型语言模型中的长上下文推理方面提供了急需的改进。如果您喜欢我们的工作，您一定会喜欢我们的时事通讯。不要忘记加入我们的 50k ML SubRedditAsif Razzaq 是 Marktechpost Media Inc. 的首席执行官。作为一位有远见的企业家和工程师，Asif 致力于利用人工智能的潜力促进社交好的。

米开朗基罗：一种人工智能框架，用于评估大型语言模型中的长上下文推理，超越简单的检索任务 - MarkTechPost

关于《米开朗基罗：一种人工智能框架，用于评估大型语言模型中的长上下文推理，超越简单的检索任务 - MarkTechPost》的评论

发表评论

摘要

相关新闻

相关讨论