为什么 Snowflake 支持嵌入初创公司 Voyage AI 来改进企业 RAG - VentureBeat

2024-10-03 13:00:00 英文原文

加入我们的每日和每周时事通讯，了解有关行业领先人工智能报道的最新更新和独家内容。了解更多

在企业人工智能的检索增强生成 (RAG) 领域，嵌入模型至关重要。

嵌入模型本质上将不同类型的内容转换为向量，AI 和 RAG 方法可以理解和使用它。OpenAI 一度以其 ada 嵌入模型主导了嵌入领域，但随着时间的推移，一些企业逐渐意识到，它对于他们的特定用例来说不够具体。这就是 Voyage AI 适合市场的地方。

这家初创公司今天宣布，已筹集 2000 万美元的 A 轮融资，以推进其针对企业 RAG AI 用例的嵌入和检索模型的开发。该公司的支持者之一是云数据供应商 Snowflake，该公司现在也准备将 Voyage AI 模型集成到其 Cortex AI 服务中。具体来说，Voyage AI 将登陆 Cortex AI 搜索服务，该服务基于 Snowflakes 收购人工智能搜索供应商 Neeva 的技术。

Voyage AI 的使命就是让企业 RAG 变得更好。该公司拥有多语言嵌入模型，支持 27 种语言，且准确率很高。

基本上，我们通过提高检索质量来使 RAG 变得更好，Voyage AI 创始人兼首席执行官马腾宇告诉 VentureBeat。当你有更多相关文档时，响应会变得更好，因为如果你没有相关文档，那么大语言模型就会产生幻觉。

Voyage AI 如何通过更好的嵌入来改进企业 RAG

嵌入模型并不是什么新鲜事，是大型语言模型 (LLM) 训练和 RAG 部署的基本要素。

Ma 解释说，Voyage AI 旨在构建嵌入和重新排序模型以提高检索质量。马云表示，当涉及到需要特定领域或企业信息的 RAG 时，现有的方法，特别是 OpenAI 的方法是不够的。

我认为人们意识到 OpenAI 的 ada 现在还不够好，因为当你马化腾表示，精度要求越来越高，但还不够准确。因此，我们以更高的准确性和对复杂概念的更多理解来进行嵌入。

他解释说，Voyage AI 提高准确性的方式是采用了许多先进技术。Voyage AI 优化了训练流程的每个部分。这包括收集和过滤数据。马云还指出，他的公司针对不同的特定领域（例如编码、金融和法律用例）训练其模型。

他说，这使我们能够在特定领域获得更好的性能。

对比学习方法如何改进培训

培训通常是一个特别棘手的问题，因为大多数数据都是未标记的。

为了从企业的未标记数据中获取价值，Voyage人工智能使用一种称为对比学习的技术来训练其模型。Ma 解释说，对比学习是一种不同于用于某些训练操作的典型下一个单词预测方法的方法。在下一个单词方法中，模型根据模式预测另一个单词或短语应该跟随哪个单词或单词。对比学习走了一条不同的道路。

马说，你可以根据未标记的数据创建这种所谓的对比对，并用它来训练模型。

为什么 Snowflake 拥抱 Voyage人工智能改善企业 RAG

对于 Snowflake 来说，支持 Voyage AI 并将其集成到其 Cortex AI 服务中，就是为了让人工智能对企业用户更有用。

每个提供商都在努力Snowflake 工程高级副总裁 Vivek Raghunathan 表示，“构建某种 RAG 系统，我们采取的角度是，你向我们指出数据，你可以与你的数据进行对话，无论是结构化的还是非结构化的，它都会起作用。”VentureBeat。

Raghunathan 补充说，Snowflake 对 Voyage AI 模型感到兴奋，因为它们将为 Snowflakes 客户带来改进和先进的功能，包括多语言功能。他还指出，Voyage AI 提供了更长的上下文窗口，这也将有助于改善企业用例。

Snowflake 已经拥有自己的 Arctic 嵌入模型，该模型目前通常是默认的。Voyage AI 模型将为用户提供可选的替代方案。

考虑到效率与质量的帕累托前沿，我们的模型往往专注于一定的规模，Raghunathan 说。对于真正困难的用例，Voyage AI 的模型质量要高得多。

关于《为什么 Snowflake 支持嵌入初创公司 Voyage AI 来改进企业 RAG - VentureBeat》的评论

暂无评论

发表评论

摘要

加入我们的每日和每周时事通讯，了解有关行业领先人工智能报道的最新更新和独家内容。Voyage AI 如何通过更好的嵌入改进企业 RAG 嵌入模型并不是什么新鲜事，而是大型语言模型 (LLM) 训练和 RAG 部署的基本要素。为了从企业的未标记数据中获取价值，Voyage AI 使用一种称为对比学习的技术来训练其模型。Voyage AI 模型将为用户提供可选的替代方案。考虑到效率与质量的帕累托边界，我们的模型往往集中于一定的规模，拉古纳坦说。