作者:by Paul Gillin
Snowflake Inc. 今天宣布在其年度建造 2024虚拟开发者大会对其云数据平台进行了大量增强,其中许多增强都集中在人工智能上。
其中包括具有代理功能的内部数据自然语言前端、帮助开发人员更快地构建用于管理和访问结构化和非结构化数据的会话前端的工具、更有效地运行批量大型语言模型推理的增强功能以及在 Snowflake Cortex AI(一项托管 AI 开发服务)中使用图形处理单元驱动的容器来训练自定义模型。
在 AI 公告列表中首屈一指的是 Snowflake Intelligence,这是一个即将进入私人预览版的新平台,旨在使企业用户能够以自然语言询问有关其组织数据的问题,并创建针对数据采取行动的数据代理。结果。
Snowflake Intelligence 可与第三方工具(包括内部数据库、Microsoft SharePoint 文档存储库、Salesforce Inc. 的客户关系管理和 Slack 协作应用程序以及 Google LLC 的 Workspace)连接,以与商业智能数据相结合在雪花中。
该公司表示,该工具集解决了跨数据源的分散治理、非结构化和结构化数据的孤岛问题,以及缺乏编写代码以实现统一访问的分析师的问题,方法是将其替换为单个治理层,无需访问非结构化和结构化数据源即可。用于自定义编码。数据代理分析和汇总数据并生成新任务。他们还可以使用应用程序编程接口读取和写入 Snowflake 表。
Snowflake Intelligence 基于该公司的 Cortex AI 完全托管的人工智能服务,其中包含一套生成式 AI 功能。它还使用 Cortex Search 完全托管的搜索引擎对非结构化数据运行查询,并使用 Cortex Analyst 来查询结构化数据。
它与 Snowflake Horizon Catalog 原生集成,使其与 Apache Iceberg 和 Apache Polaris 目录等开放表格式兼容。Snowflake 表示,这一组合提供了高水平的合规性、安全性、隐私性、发现和协作功能。
Snowflake 还发布了 Apache Polaris 目录的托管版本,该版本引入并发布为开源六月。Snowflake Open Catalog 现已普遍推出,允许用户集成各种引擎并跨多种表格式(例如 Apache Iceberg 和 Apache Hudi)应用一致的治理控制。
该开源目录打破了 Snowflake 的专有历史。它反映了客户对如何管理支撑人工智能开发的称为数据湖的大型存储库有更多选择的需求。“任何人都可以托管 Apache Polaris,但为希望我们提供托管服务的客户提供的托管版本称为 Snowflake Open Catalog,”Snowflake 产品执行副总裁 Christian Kleinerman 说道。
图片:雪花
今天会议上的第二个重大公告是在 Amazon Web Services Inc. 和 Microsoft Corp. Azure 云平台上全面推出文档 AI 数据提取功能。文档 AI 利用 Snowflake 的 Arctic-TILT 大语言模型从大量文本文档中提取和总结信息,并解释徽标、手写文本和表单填写等非结构化元素。
克莱纳曼说,文档人工智能的一个关键区别是它的自学习能力。“客户可以提供答案反馈,并要求 Document AI 重新训练或微调模型,并根据他们的反馈继续改进,”他说。– 随着时间的推移,模型会越来越了解给定客户的用例,并且专门使用客户数据进行训练。 –
业务分析师和数据工程师现在可以使用短 SQL 函数对 PDF 和其他文档中的数据进行预处理,以进行 AI 训练,以实现 Cortex 搜索中的布局感知文档文本提取和文本分块功能。这两项功能现已推出公共预览版。
该公司还推出了一种新方法,将交易和分析数据整合到一个名为 Unistore 的单一平台中。它由混合表提供支持,这种格式支持事务应用程序的快速单行操作。Unistore 简化了数据架构,同时确保一致的安全性和治理,使组织无需管理单独的事务和分析数据库。
混合表可以智能地识别查询是事务性查询还是分析性查询,并相应地优化查询性能。用户可以实时维护应用程序和工作流程状态,而无需管理多个数据库系统或在数据库之间移动。这使他们能够利用 Snowflake 对事务功能的扩展支持来构建轻量级事务应用程序。
Snowflake 自从其一些客户成为攻击者的目标去年春天,尽管该公司当时表示自己的防御并未受到损害,但攻击者的目标客户是未使用多因素身份验证的客户。
今天推出的安全增强功能包括托管 Horizon Catalog 中的一项功能,该功能可监控暗网和其他已知攻击者的出没地点,以查找被盗的凭据。“如果我们发现这些信息与客户在 Snowflake 中拥有的凭据相匹配,我们将发出警报,并可能会一直禁用帐户,以避免我们今年早些时候看到的一些攻击,”Kleinerman 说。
Snowflake Trust Center 的增强功能包括现已普遍推出的新威胁情报扫描程序包,该程序包可自动检测哪些用户(无论是人类还是服务)存在风险,并建议降低风险的方法。Snowflake 还扩展了其信任中心安全框架,以允许第三方扩展现有的安全功能,并将其作为 Snowflake 本机应用程序在 Snowflake Marketplace 上出售。该功能很快就会进入私人预览版。
Horizon Catalog 中添加了对用于 API 身份验证的编程访问令牌的支持,以简化应用程序访问,同时通过令牌的范围和过期增强安全性。
对话式应用程序正在获得对多模式输入的支持,首先是图像,然后是使用多模式 LLM 的音频和其他数据类型。可以使用托管连接器(例如现已提供公共预览版的新的 Snowflake Connector for SharePoint)集成内部知识库,以自动提取文件,而无需手动预处理文档。
图片:雪花
Cortex Chat API 正在得到增强,以简化应用程序前端和 Snowflake 之间的集成。Cortex Chat API 将结构化和非结构化数据组合到单个表示状态传输调用中,用于检索增强生成和代理分析。
Snowflake Marketplace 上的新 Cortex 知识扩展支持使用来自第三方内容提供商的非结构化数据的聊天应用程序,并具有旨在尊重出版商知识产权的隔离和归因结构。
借助 LLM 应用程序的 AI 可观测性(处于私人预览版),用户可以使用 20 多个相关性、接地性(生成的响应与事实、相关和上下文准确的信息的一致性)、刻板印象和延迟指标来评估和监控其生成式 AI 应用程序在开发和生产过程中。
Cortex Analyst 的改进包括通过高级联接和多轮对话简化数据分析,以及通过 Cortex 搜索集成实现更动态的检索。多轮对话允许聊天机器人和用户之间的交互跨越多个交换而不会丢失上下文。这些功能处于公共预览版。
用于大批量文本处理的新定制选项支持大规模构建自然语言处理管道。Snowflake 还为 Cortex AI 添加了更广泛的预训练 LLM、嵌入模型大小、上下文窗口长度和支持的语言。其中包括添加 Voyage AI Innovations Inc. 的多语言嵌入模型、Meta Platforms Inc. 的多模式 Llama 3.1 和 3.2 模型,以及 AI21 Labs Ltd. 的用于无服务器推理的 Jamba 巨大上下文窗口模型。
一个名为 Cortex Playground 的新沙箱功能现已提供公共预览版,它提供了一个集成的聊天界面,用户可以在其中生成和比较来自不同法学硕士的响应。
新的 Cortex Serverless Fine-Tuning 功能允许开发人员使用专有数据自定义模型,以生成具有更准确输出的结果。即将进入公共预览版的预配置吞吐量可以在保证吞吐量的情况下处理大型推理作业。
Snowflake ML 是一组用于机器学习开发和推理的集成功能,现在在 AWS 上的公共预览版和即将在 Azure 上发布的公共预览版中支持容器运行时。这样可以使用任何 Python 框架或语言模型在 GPU 上更高效地执行分布式机器学习训练作业。
容器中的模型服务是一项在 AWS 上进入公共预览版的功能,使团队能够使用分布式 CPU 或 GPU 将 Snowflake 模型注册表中的内部和外部训练的模型部署到 Snowpark 容器服务中。Snowpark 容器服务是一项托管产品,使用户能够直接在 Snowflake 生态系统中部署、管理和扩展容器化应用程序。
新的存储生命周期策略现已提供私人预览版,通过引入归档或删除数据的新方法来降低存储成本并增强合规性。Snowflake 还通过为其 SnowConvert 本机代码转换工具添加额外的视图支持来增强对从关系数据库管理系统进行数据迁移的支持。
Snowflake 的内部市场现已全面开放,使用户能够发现组织内其他团队和业务部门的数据、应用程序和 AI 产品,同时防止与外部各方意外共享。
内部市场还允许用户共享经过微调的大型语言模型,以便他们更轻松地针对特定用例任务的生成式人工智能用例进行协作。该功能现已提供公共预览版,可在人工智能数据云中安全地运行,无需复制数据或在帐户之间传输数据。
私有预览中的新 Copilot for Listings 功能允许使用自然语言轻松评估组织内部市场上列出的数据产品。AI助手生成并执行高质量的SQL命令并回答问题,帮助用户快速确定共享数据是否与其工作相关。
Snowflake 本机应用程序框架与 Snowpark 容器服务的集成现已在 AWS 上全面推出,并在 Azure 上提供公共预览版,允许用户使用自己喜欢的编程语言轻松构建具有可定制用户体验的应用程序,并将其部署在可配置的 GPU 和 CPU 实例之上。已发布的应用程序可以跨云和区域分布,并在整个开发过程中具有可观察性和安全性。
Snowflake 本机应用程序框架还增加了对 Snowpark ML 建模 API 的支持,该 API 使用 scikit-learn、LightGBM 和 XGBoost 等 Python 框架来预处理 Snowflake 内的数据、特征工程和训练模型。新的安全模型共享功能现已公开预览,允许模型开发人员使用 Snowpark ML Modeling API 创建和训练模型,将其存储在其帐户内的模型注册表中,并在 Snowflake Marketplace 上安全地分发模型并从中获利。
谢谢