更大并不总是更好：检查数百万令牌LLM的业务案例

加入我们的每日和每周的新闻通讯，获取有关行业领先的AI覆盖范围的最新更新和独家内容。了解更多

扩大大型语言模型（LLM）之外的竞赛超出了百万英语的门槛，这引起了AI社区的激烈辩论。类似的模型Minimax-Text-01拥有400万英镑的容量，并且双子座1.5 Pro可以同时处理多达200万个令牌。他们现在承诺改变游戏规则的应用程序，并可以在单个推理电话中分析整个代码库，法律合同或研究论文。

讨论的核心是上下文长度 - AI模型可以处理的文本数量以及记住立刻。更长的上下文窗口允许机器学习（ML）模型在单个请求中处理更多信息，并减少将文档分解为子文件或分组对话的需求。在上下文中，一个拥有400万个容量的模型可以一次消化10,000页的书籍。

从理论上讲，这应该意味着更好的理解和更复杂的推理。但是，这些庞大的上下文窗口是否转化为现实世界的业务价值？

随着企业权衡扩展基础设施的成本与生产力和准确性的潜在提高，问题仍然存在：我们是在AI推理中解锁新的边界，还是只是在没有有意义的改进的情况下扩展了代币记忆的限制？本文探讨了技术和经济权衡，基准挑战和不断发展的企业工作流程塑造了未来大写LLM。

大型上下文窗口模型的兴起：炒作还是实际价值？

为什么AI公司正在竞争扩大上下文长度

诸如OpenAI，Google DeepMind和Minimax之类的AI领导者正处于武器竞赛中，以扩大上下文长度，这等于AI模型可以一次处理的文本数量。承诺？更深入的理解力，较少的幻觉和更多的无缝互动。

对于企业而言，这意味着可以分析整个合同，调试大型代码库或总结冗长的报告而不会破坏上下文的AI。希望是消除诸如块或检索效果（RAG）之类的解决方法，可以使AI工作流变得更加顺畅，效率更高。

解决 - 海豹问题上的针头问题

针中的针对海景问题是指AI难以识别隐藏在大量数据集（Haystack）中的关键信息（针）。LLM经常错过关键细节，导致效率低下：

搜索和知识检索：AI助理努力从大量文件存储库中提取最相关的事实。
法律和合规：律师需要跟踪跨合同跨的子句依赖项。
企业分析：财务分析师有埋葬在报告中的关键见解的风险。

较大的上下文Windows帮助模型保留了更多信息并有可能减少幻觉。它们有助于提高准确性并启用：

跨文档合规性检查：一个256k token的提示可以分析针对新立法的整个政策手册。
医学文献综合：研究人员使用128K+令牌在数十年的研究中比较药物试验结果的窗口。
软件开发：调试会改进AI可以扫描数百万行代码而不会失去依赖性时。
金融研究：分析师可以在一个查询中分析完整的收益报告和市场数据。
客户支持：聊天机器人较长的内存提供更多的上下文感知互动。

增加上下文窗口还可以帮助模型更好地参考相关细节，并减少生成不正确或捏造信息的可能性。2024年斯坦福大学的研究发现在分析合并协议时，与抹布系统相比，128k token模型将幻觉率降低了18％。

但是，早期采用者报告了一些挑战：摩根大通的研究证明模型在其上下文的大约75％上的表现较差，并且复杂的财务任务的性能崩溃到32K代币以上的零。模型仍然在长期召回中大致挣扎，通常将最新数据优先于更深入的见解。

这引起了问题：一个400万座的窗口是否真正增强了推理，还是只是内存的昂贵扩展？该模型实际使用了多少大量输入？好处是否超过了计算成本上升？

成本与性能：抹布与大提示：哪个选项获胜？

使用抹布的经济权衡

RAG将LLM的功率与检索系统相结合，以从外部数据库或文档存储中获取相关信息。这使该模型可以基于预先存在的知识和动态检索数据生成响应。

随着公司的采用复杂任务的AI，他们面临一个关键决定：使用大量上下文窗口的大量提示，或者依靠抹布动态获取相关信息。

大提示：带有大量令牌Windows的型号在单个通过中处理所有内容，并减少维护外部检索系统并捕获跨文档见解的需求。但是，这种方法在计算上很昂贵，并且推理成本和内存要求更高。
抹布：抹布没有立即处理整个文档，而是在生成响应之前仅检索最相关的部分。这降低了令牌的使用和成本，使其对现实世界应用程序更具可扩展性。

比较AI推理成本：多步检索与大型单个提示

虽然大提示简化了工作流程，但它们需要更多的GPU功率和内存，从而使它们规模昂贵。尽管需要多个检索步骤，但基于抹布的方法通常会减少总体上的消耗量，从而导致推理成本降低而无需牺牲准确性。

对于大多数企业，最佳方法取决于用例：

需要对文件的深入分析？大型上下文模型可能会更好。
需要可扩展的，具有成本效益的AI来进行动态查询吗？抹布可能是更聪明的选择。

当以下情况下，一个大的上下文窗口很有价值

必须立即分析全文（例如：合同评论，代码审核）。
最大程度地减少检索错误至关重要（例如：法规合规性）。
延迟不如准确（例如：战略研究）。

根据Google研究，使用128K token Windows分析10年收益笔录的库存预测模型胜过抹布比29％。另一方面，Github Copilot的内部测试表明2.3倍更快的任务MonorePo迁移的完成与抹布。

分解回报率降低

大环境模型的限制：延迟，成本和可用性

尽管大型上下文模型提供了令人印象深刻的功能，但额外的上下文确实是有益的。随着上下文窗口的扩展，三个关键因素开始起作用：

延迟：模型过程的令牌越多，推断就慢。较大的上下文窗口可能会导致重大延迟，尤其是在需要实时响应时。
成本：随着每次处理的每次处理，计算成本都会上升。扩大基础架构以处理这些较大的型号可能会变得非常昂贵，尤其是对于具有大批量工作量的企业而言。
可用性：随着上下文的增长，该模型有效地关注最相关信息的能力会减少。这可能会导致效率低下的处理，在这种情况下，相关数据较少影响模型的性能，从而导致准确性和效率的回报降低。

GoogleInfini-Inction技术试图通过将任意长度上下文的压缩表示形式与有限的内存来抵消这些权衡。但是，压缩会导致信息丢失，模型努力平衡即时和历史信息。与传统的破布相比，这会导致性能降解和成本增加。

上下文窗口武器竞赛需要方向

虽然4m token模型令人印象深刻，但企业应将其用作专业工具而不是通用解决方案。未来在于混合系统在抹布和大提示之间进行适应性选择。

企业应根据推理的复杂性，成本和延迟在大型上下文模型和抹布之间进行选择。大型上下文窗口是需要深入了解的任务的理想选择，而抹布则更具成本效益，效率为简单，事实。企业应设定明确的成本限制，例如每项任务0.50美元，因为大型型号可能会变得昂贵。此外，很大的提示更适合离线任务，而抹布系统在需要快速响应的实时应用程序中表现出色。

新兴的创新GraphRag可以通过将知识图与传统的矢量检索方法集成，从而更好地捕获复杂的关系，将细微的推理和回答精度提高35％，从而进一步增强这些自适应系统。Lettria等公司的最新实施表明，使用Hybrid检索系统中使用GraphRag的50％的准确性从50％到80％以上。

作为尤里·库拉托夫（Yuri Kuratov）警告：扩大环境而不改善推理的方式就像是为可以转动的汽车建造更广阔的高速公路。AI的未来在于真正了解任何上下文大小之间关系的模型。

Rahul Raja是LinkedIn的员工软件工程师。

Advitya Gemawat是Microsoft的机器学习（ML）工程师。

每日有关VB每日业务用例的见解

如果您想给老板留下深刻的印象，VB Daily可以为您提供服务。我们为您提供有关公司在制定AI的工作，从监管转变到实际部署的公司，因此您可以分享最大投资回报率的见解。

阅读我们的隐私政策

感谢您的订阅。查看更多VB时事通讯在这里。

发生错误。