英语轻松读发新版了,欢迎下载、更新

抹布不是历史的终结:为什么AI+数据体系结构将在2025年转换

2025-02-02 11:27:58 英文原文

作者:Coral Garnick

RAG Is Not the End of History

自2020年左右以来,检索增强发电(RAG)和内部文化学习一直是AI领域的令人兴奋的发展。这些技术承诺将彻底改变企业和应用程序开发人员如何利用客户数据,允许他们在不进行重新培训或进行重新培训的情况下利用强大的模型微调。通过简单地“在提示期间喂食模型相关数据,公司可以立即将AI应用于自己的数据。从客户的角度来看,这更快,更容易开始。当今的企业,应用程序开发人员和启动活动都集中在抹布模式上。

但是,让我们开始的事情不会带我们去我们需要去的地方。

尽管技术人员长期以来已经了解了RAG的局限性,但许多企业和应用程序开发人员CTO都将其视为其全部AI+数据架构。这是可以理解的 - 抹布为将AI应用于企业数据提供了有效的途径,这是一个合乎逻辑的起点。但是2025年将揭示其限制:AI的推理客户数据的能力仅与最初对模型进行培训的数据一样好。这是一个问题:如果您的数据不类似于培训集,即使是最先进的现成模型也很短。随着公司努力应对更加多样化和快速变化的数据,并寻求成本效益,较小的模型,这些差距甚至更大,以牺牲速度和效率。

可以肯定的是,由于几个关键原因,抹布将仍然至关重要。这是处理新的和快速变化的数据的最佳技术,因为没有培训可以预期明天的文档。它为源文档中模型输出提供了更可靠的接地,而不是试图编码模型权重中的所有知识。也许最重要的是,企业安全和隐私需求对培训的数据进行了艰苦的限制 - 模型无法轻易忘记他们学到了什么(各种模型越狱的证明),使抹布成为处理的更安全的选择敏感企业数据。

为了真正解锁AI的潜力,企业将需要建立抹布,同时整合更广泛的方法:训练前培训在广泛的数据集中建立基础,中期培训在基础模型开发过程中引入了专业数据,培训后培训应用技术应用技术。像增强学习一样,微调适应特定域的模型,并且测试时间计算可以增强推理周期更长的推理能力。每种方法都在概括,专业化,资源需求和处理时间之间提供不同的权衡。

当然,这些方法是自2018年以来的新型培训和调整一直是强大的技术。RAG提供了一个更简单的起点,帮助组织构建初始的AI体系结构。现在,这些基础已经到位,企业和应用程序开发人员已经准备好采用更复杂的方法。领导者喜欢非结构化。IO通过将复杂的企业文档转换为这些系统可以理解的高质量数据,从而实现这一目标。

转变已经在进行。万事达是微调模型了解他们的财务数据模式。收集阅读AI正在为每个客户组织建立自定义模型。甚至上下文AI,由Rag的创作者之一共同创立,正在用所谓的建筑扩展其建筑专业的破布代理。一些客户甚至超越了测试,甚至可以培训训练Ello通过在其应用程序周围创建一个数据飞轮来建立世界一流的儿童语音感知模型 - 60%的用户选择共享数据以改善AI。

对于创始人来说,这是个好消息:

首先,随着计算成本继续下降,工具像Openai的加固微调民主化的高级培训技术,复杂的AI体系结构正在成为更广泛的从业者。Gulean,Ello和Read AI等公司的成功表明,许多尺寸的初创公司可以有效地训练和调整自己的模型,尤其是当专注于特定领域,然后将这些模型部署为RAG体系结构的一部分。

其次,测试时间计算的进步会创造出强大的飞轮效果。这些技术通过在需要更深入分析时花费更多时间来推断来增强模型推理。这使得从专业培训和领域优化的回报更加有价值 - 增强的推理意味着对特定于领域的数据和上下文有更好的了解。随着计算成本继续下降,生产部署的良性周期变得越来越实用。

第三,向开源和(通常)较小模型的转变创造了自己的加强周期。开源模型,例如DeepSeek使训练和调整客户自己的数据和利用自己的领域专业知识。许多客户选择在生产中部署较小的〜7b型号出于性能和成本原因。对于那些较小的模型,他们的更多数据自然会掉落在域中。这增加了微调和专业化的回报,使特定于领域的优化更加有价值。

这些趋势的融合意味着没有任何一种方法会占主导地位。取而代之的是,我们进入了一个时代,其中抹布成为更广泛的工具包中的一种工具,结合了专业培训,复杂的检索和测试时间计算优化。能够启用和利用这一转变的公司,同时深入了解这些方法如何合作 - 将是最能将AI应用于客户数据的公司,帮助企业和应用程序开发人员为客户提供服务并制造未来发生得更快。

从基础架构到应用程序,Madrona正在积极投资AI+数据架构。我们已经支持该领域的多家公司,并将继续这样做。如果您在这个领域建造,我们很乐意与您见面。您可以直接与我们联系:[电子邮件保护]

注册我们的新闻通讯,以获取新兴趋势,
见解和新投资新闻。

关于《抹布不是历史的终结:为什么AI+数据体系结构将在2025年转换》的评论


暂无评论

发表评论

摘要

自2020年以来,抹布和文本学习已使与企业数据的AI集成更快,但是随着数据多样性的增加而面临限制。为了充分利用AI潜力,企业需要采用更广泛的方法,包括训练前,中期训练,训练后技术和专门的抹布代理。诸如Unsonfortraded.io,MasterCard,Glean,Ello和Read AI之类的公司正在引导这一转变向更复杂的AI体系结构,从而受益于计算成本下降和开源模型。这种过渡为专注于特定领域的初创企业提供了重要的机会。

相关讨论