缩小人工智能数据基础设施的性能差距

大多数组织当前的数据基础设施能力与有效支持人工智能工作负载所需的能力之间存在着巨大的鸿沟。

在当前的技术格局中，组织正在寻求人工智能来提供变革性的产品差异化和突破性的新收入来源。2023年，大语言模型（法学硕士）的新能力、特性和产品的可能性让人们眼花缭乱。2024 年及以后，我们现在重点关注将这些想法变为现实的现实，以及这对数据基础设施意味着什么的挑战。对于大多数人来说，人工智能的成功之路并不平坦，因为组织发现他们的遗留数据生态系统不足以满足今天的数据处理，更不用说明天了。

随着对数据作为差异化因素的需求不断增加，组织正在努力应对基础设施现代化和逐步淘汰遗留系统的艰巨任务，同时不间断地提供传统分析。然而，通过数据提供新价值对于增强人工智能能力和保持竞争优势至关重要。组织当前的基础设施能力与有效支持人工智能工作负载所需的要求之间存在着巨大的鸿沟，这在性能领域表现得最为突出。

尽管构建人工智能程序看似需要付出艰巨的努力，但数据基础设施架构师应该重点考虑一些关键因素才能继续前进。通过了解遗留数据基础设施的局限性，可以通过构建灵活、可扩展、注重性能的系统来释放新功能，从而简化数据价值的路径。

回顾遗留数据基础设施

要了解过去十年盛行的数据生态系统，我们首先要思考迄今为止已构建的内容。早期的数据基础设施是数据存储与计算功能的耦合系统，专门为与存储层交互而构建。存储层由物理服务器组成（通常位于专用的本地数据中心），介质包括硬盘驱动器、磁带和光盘。该存储通常被组织成分层文件系统或关系数据库。

早期数据基础设施中的经典计算环境严重依赖大型机和小型机，到 20 世纪 90 年代过渡到客户端-服务器架构。计算任务由专用硬件执行，多核处理器和早期虚拟化技术提高了效率和资源利用率。手动的SQL查询通过 ODBC/JDBC 进行编程访问对于数据交互来说很常见，而ETL流程在操作系统和数据仓库之间移动数据。随着技术的进步，分布式计算和早期云服务的集成开始重塑这些环境，为我们今天依赖的可扩展、灵活的计算基础设施铺平了道路。

经典的数据管道

除了这个遗留数据基础设施之外，数据管道构建：原始数据通过以下方式从源操作或交易系统（例如，生成交易数据的 ATM）转移到以分析为中心的系统：ETL 或 ELT，进入任一数据仓库或者数据湖（对于那些想要“两全其美”的人来说，可以使用数据湖屋）。无论哪种方式，数据都需要从物理和技术格式转换为更加商业友好和价值驱动的模式，以供下游用户使用。这些转换通常涉及清理、聚合和连接数据集，以生成更产品化的数据集，这些数据集是有价值的业务产品。

数据价值之路的重点是从以交易为中心的系统到一个以数据和分析为中心的系统并在此过程中转换数据。尽管底层技术取得了进步，例如从大型机转向 x86、硬盘驱动器转向闪存等，但这种价值之路基本上保持不变。

考虑云

计算历史上最重要的进化时刻之一是引入云计算。通过硬件商品化，传统数据架构可以有效提升并转移到“其他人”的数据中心，从而实现更大的灵活性并改变技术架构中基础设施考虑因素的面貌。组织能够将物理基础设施的管理工作交给云提供商，这种转变使企业能够更多地关注数据处理和分析，同时利用云的存储、计算和人工智能等高级服务的功能。机器学习。

然而，云计算的出现并没有从根本上改变数据管道的构建方式。无论数据是在数据中心还是在云中，数据的价值路径都保持不变。这并不是说云计算在性能、可扩展性、计算能力或其他主要方面没有提高数据处理的性能。然而，从源到消费的数据管道基本保持不变。有人可能会说，所谓的“现代数据堆栈”只是已经存在了数十年的同一遗留架构的模块化、SaaS 和基于云的版本。

输入人工智能

尽管人工智能已经以多种形式出现多年机器学习算法重要的是要认识到人工智能的最新进展与传统的数据科学方法截然不同。

非结构化数据的规模

现代人工智能系统处理大量非结构化数据，需要可扩展的基础设施来处理增加的数据量和复杂性。到目前为止，数据基础设施主要关注结构化数据，但当代数据集合高达 95% 是非结构化的。这意味着为 TB 级构建的系统现在需要容纳 PB 和 EB 级的数据，这迫使人们就架构进行艰难的对话。例如，云和 SaaS 优化的数据生态系统可能最适合商业智能 (BI) 和传统机器学习，但缺乏处理非结构化数据的能力。此外，为人工智能扩展这样的系统可能成本高昂，或者缺乏人工智能可行的性能能力。

性能差距

高级人工智能模型的性能要求推动了 GPU 和专用硬件的采用，极大地改变了基础设施需求。这种转变允许更快的训练和推理时间，使企业能够利用人工智能进行实时分析、增强决策和创新应用，这是传统数据科学方法以前无法实现的。然而，快速发展的人工智能技术的出现，例如检索增强生成（RAG）和生成式人工智能模型，加剧了对高性能的需求。这不仅需要卓越的处理能力，还需要能够随着人工智能发展步伐而发展的敏捷基础设施。

企业现在面临着维护尖端硬件和优化数据管道的挑战，以确保人工智能模型高效且有效地执行。跟上基础设施的这些新发展至关重要，因为落后可能意味着错失先进人工智能所承诺的竞争优势。这种性能差距凸显了对人工智能专用基础设施的持续创新和投资的迫切需要，以充分利用现代人工智能技术的变革潜力。

人工智能数据管道

值得注意的是，上述数据转换过程使数据对组织有价值；它是将特定于业务的逻辑应用于数据并最终使其成为宝贵资产的“秘密武器”。业务逻辑的这种应用对于商业智能、机器学习和人工智能等都是至关重要的。在传统数据系统中，此转换过程通常涉及构建数据、清理数据并将其聚合以产生可操作的见解。然而，随着生成式人工智能等新范式的出现，需求变得更加复杂和苛刻，并且建立在传统数据管道的基础上。

生成式人工智能通过包含文本、图像和音频等非结构化数据来改变事物，这给数据处理和集成带来了新的挑战。除了适应规模和性能的技术要求外，生成式人工智能的具体用例（例如实时内容生成、动态个性化和复杂决策）要求数据管道异常敏捷并能够集成见解快速从各种数据源获取信息。

此外，传统数据管道侧重于数据从源到处理再到目标的向前移动，而人工智能管道更具周期性，可以使用数据然后反馈到系统中以改进算法输出。这种额外的复杂性，加上管道中多模式数据的多样性，意味着数据管道的灵活可扩展性和性能对于人工智能来说绝对至关重要，更不用说对数据智能用例的未来发展了。

因此，构建数据管道的重要考虑因素不仅包括扩展基础设施，还包括重新思考管道本身的设计，以确保它们能够支持不断发展的人工智能模型的快速迭代和部署。这些管道的有效管理对于保持人工智能计划的高性能和实现预期结果至关重要，这使其成为旨在充分利用现代人工智能技术潜力的组织的重点关注点。

面向人工智能的前瞻性数据架构

考虑到上述所有因素，我们如何构建高性能、可扩展、灵活且经济高效的数据管道？这可能令人望而生畏。例如，随着新计算功能的上线，拥有在高度可靠的环境中升级到新硬件的能力非常重要。现代数据架构的设计必须具有灵活性和可扩展性，以便在尖端硬件和软件上线时无缝集成它们。这包括采用模块化和容器化方法，以便快速部署新技术，而不会造成大量停机或中断现有工作流程。

例如，VAST 数据平台提供专为 AI 构建的统一存储、数据库和数据驱动的功能引擎服务，支持无缝访问和检索 AI 模型开发和训练所必需的数据。凭借企业级安全性和合规性功能，该平台可以通过实时深度数据分析和学习来捕获、编目、提炼、丰富和保存数据，以确保最佳资源利用率以实现更快的处理，从而最大限度地提高跨领域人工智能工作流程的效率和速度。数据管道的所有阶段。

混合和多云策略

选择单个超大规模提供商并使用他们提供的基于云的架构，有效地“花钱解决问题”可能很诱人。然而，要达到构建人工智能程序所需的适应性和性能水平并种植它，许多组织正在选择采用混合和多云策略。通过利用本地、私有云和公共云资源的组合，企业可以优化其基础设施以满足特定性能和成本要求，同时获得按照市场需求的速度从数据中提供价值所需的灵活性。这种方法确保可以在本地安全地处理敏感数据，同时利用公共云提供商为人工智能工作负载提供的可扩展性和高级服务，从而保持高计算性能和高效的数据处理。

拥抱边缘计算

随着人工智能应用对实时处理和低延迟响应的要求越来越高，将边缘计算纳入数据架构变得至关重要。通过处理更接近源的数据，边缘计算减少延迟和带宽使用，从而加快决策速度并改善用户体验。这对于物联网和其他应用程序尤其重要，在这些应用程序中，即时洞察至关重要，确保人工智能管道即使在分布式环境中也能保持较高的性能。

数据治理和安全

在前瞻性的人工智能架构中，强大的数据治理和安全性比以往任何时候都更加重要。随着数据量和复杂性的不断增加，确保数据完整性、隐私性以及遵守不断变化的政府监管目标变得更加重要。实施全面的数据治理框架并利用人工智能驱动的安全解决方案有助于保护敏感信息并维持与利益相关者的信任，这对于维持人工智能数据管道的整体性能和可靠性至关重要。

人工智能和机器学习工作流程的集成

前瞻性的数据架构还应促进人工智能和机器学习工作流程的无缝集成，以最大限度地提高性能。这涉及创建支持整个数据生命周期的管道，从摄取和预处理到模型训练、部署和监控。利用最新、最好的开发运营策略，例如集装箱化和基础设施即代码，旁边MLops持续交付模型的平台可以显着提高运营效率和模型性能。简化这些流程可确保优化数据管道，以快速有效地将数据传输到消费层，减少瓶颈并提高人工智能洞察的速度和准确性。

人才和技能投资

最后，前瞻性的人工智能架构需要对人才和技能进行大量投资。组织必须优先考虑招聘和培训精通最新人工智能技术和最佳实践的数据和 IT 专业人员。培养持续学习和创新的文化将确保组织始终处于人工智能进步的前沿，并能够有效地利用出现的新机会，最终提高人工智能系统和基础设施的性能。

通过采用注重性能的前瞻性数据架构，企业可以充分利用人工智能的变革潜力。对人工智能基础设施采取积极主动的方法，可确保组织始终处于技术创新的前沿，使他们能够释放数据的全部潜力，并在竞争日益激烈的环境中实现其战略目标。该战略在日益数据驱动的世界中推动创新、效率和竞争优势，有效缩小人工智能基础设施的性能差距。

科琳·塔托博士，是现场首席技术官兼战略主管海量数据。

新技术论坛为技术领导者（包括供应商和其他外部贡献者）提供了一个以前所未有的深度和广度探索和讨论新兴企业技术的场所。该选择是主观的，基于我们对我们认为重要且 InfoWorld 读者最感兴趣的技术的选择。InfoWorld 不接受出版营销材料，并保留编辑所有贡献内容的权利。全部发送查询至 doug_dineley@foundryco.com。.

OC