分析 在 HPE 推出 AI 后,NetApp 是首批响应 VAST Datas 基于 NFS 的并行数据访问以进行 AI 工作的主要现有存储供应商之一,其内部 ONTAP 数据平台用于 AI 开发- 3 月份重点关注 Nvidia 合作伙伴关系。
VAST Data 凭借其 DASE(分解共享一切)架构渗透到企业数据存储市场,该架构通过无状态控制器提供单层存储,驱动低延迟、高延迟带宽,跨内部 RDMA 类型结构的全闪存存储,元数据存储在存储级内存类型驱动器中。该公司宣传其在此基础上构建的以人工智能为中心的软件堆栈,提供接近磁盘、并行访问的成本,以及由数据目录和非结构化数据存储以及结构化数据库、IO 事件触发数据使用的单一命名空间。引擎,现在是使用 Nvidia GPU 作为计算节点单元和嵌入式 NIM 微服务的 InsightEngine。
VAST 平台和产品正在其 Cosmos 营销活动中展示。到目前为止,除了 HPE 之外,没有一家企业存储企业对这项技术做出了回应,除了采用成本较低的 QLC(4 位/单元)闪存技术外,HPE 在今年早些时候宣布与 Nvidia 建立专注于人工智能的合作伙伴关系。HPE 开发了 Alletra MP 硬件架构,并在该架构上运行 VAST 文件软件,并单独提供了自己的块存储产品。Quantums Myriad OS 开发也共享许多这些概念。
现在,NetApp 刚刚在其 Insight 活动中宣布了自己的分类计算/存储架构开发,并发布了白皮书《ONTAP 在深度学习时代开创数据管理》学习,充实了这个 ONTAP AI 数据平台项目的一些细节。
目前,NetApp 拥有三种 ONTAP 存储硬件/软件架构:
现在正在开发第四个用于 AI 架构的 ONTAP 数据平台,NetApp 表示,它是 NetApp ONTAP 中的一个新设计中心,建立在分解和可组合架构的原则之上。
这是一个全新的概念,从单独的计算控制器开始,运行 ONTAP 实例,辅以额外的元数据和数据服务,以及填充 NVMe SSD 的存储节点,形成单个存储池,通过高速、低功耗网络进行访问。-延迟、基于以太网的 RDMA 结构。计算单元和存储节点都可以通过动态工作负载平衡进行扩展。
该系统通过底层随处写入文件布局 (WAFL) 存储和单个命名空间支持文件、块和对象存储。物理块空间现在分布在多个[驱动器]机箱中,从而创建一个可扩展的命名空间,运行 ONTAP 操作系统的每个计算单元或节点都可以完整查看提供容量的存储单元,并可以直接与提供容量的存储单元进行通信。
文件锁定可能会破坏并行访问。NetApp 正在开发独立一致的微文件系统实例的概念。每个微文件系统实例都作为功能齐全的文件系统运行,并提供跨数据和元数据操作的一致性。由于每个微文件系统实例在给定时间点对其资源拥有独占所有权,因此它们可以安全地对文件系统内部数据结构进行操作。与其他实例并行。
NetApp 表示,这些微文件系统实例与前端或面向应用程序的结构分离。作为示例,安装文件共享并执行数据和元数据操作的文件系统客户端不知道哪个微文件系统实例正在处理请求。客户端将按照挂载期间规定的语义与文件服务器进行通信。
该设计在三个层面实现了并行性:
白皮书称WAFL磁盘布局将确保文件共享中的每个单独文件或文件集合将其数据块分布在多个磁盘柜上,以驱动大规模并行性和并发访问。ONTAP 操作系统的每个实例都将在后端磁盘机箱之间具有高带宽连接,并可以利用 RDMA 结构来最大限度地提高性能并确保端到端的服务质量。
结构化元数据引擎内联提取数据属性(或元数据)。提取属性后,元数据引擎会索引并存储该元数据以实现快速查找。查询接口允许应用程序查询此元数据。查询接口是可扩展的,如果不知道确切的关键字,则可以对数据进行语义搜索。
它通过元数据集提供快速索引和搜索功能。为数据标记、分类、特征提取而部署的人工智能软件生态系统,甚至为生成式人工智能推理用例部署的 RAG 框架,可以通过利用元数据引擎提供的非结构化数据的结构化视图,显着加快数据价值的实现时间。
系统中的数据已为 AI 做好准备,因为 NetApp 强大的 SnapDiff API 将以最有效的方式跟踪数据的增量更改。ONTAP 中的元数据引擎将记录这些更改,并利用其触发器功能启动数据分类、分块和嵌入创建的下游操作。ONTAP 中的专用算法将生成高度可压缩的矢量嵌入,从而显着减少矢量数据库的磁盘和内存占用空间(显着降低基础设施成本)。检索期间的新颖内存中重新排序算法可确保高精度语义搜索。
生成的嵌入存储在由 ONTAP 卷支持的集成矢量数据库中。
NetApps ONTAP AI 数据平台项目验证了 VAST 架构方法,并向其他企业存储现有供应商提出了问题。如果 NetApp 认为需要在新的 ONTAP 数据架构上投入大量资金,这对戴尔、Hitachi Vantara、IBM 和 Pure Storage 意味着什么?他们是否让产品设计工程师仔细研究 VAST 并研究如何在 PowerStore 或 Power Scale、VSP One、FlashSystem 和 FlashArray/FlashBlade 基础架构系统上开发竞争技术?
其次,利用 VAST,HPE 和 NetApp 为 AI 工作提供或即将提供基于 NFS 的并行数据访问,这使得之前专注于 HPC 的并行文件系统供应商希望将其存储出售给企业以用于 AI 工作负载?我们正在考虑 DDN (Lustre)、IBM (StorageScale)、Quobyte 和 VDURA (PanFS)。并行文件系统与分解架构之间是否存在某种中间立场?
这些问题的答案可能会在 2025 年出现,届时我们也可能期待 VAST IPO。