随着世界从通用计算向加速计算过渡,寻找大规模构建数据中心基础设施的途径变得比以往任何时候都更加重要。企业在设计和部署基础设施以支持这些新的人工智能工作负载时必须探索未知领域。
模型功能和软件框架的不断发展,以及这些工作负载的新颖性,意味着最佳实践和标准化方法仍处于起步阶段。这种不断变化的状态会让企业很难建立长期战略并充满信心地投资基础设施。
为了应对这些挑战,NVIDIA 推出了企业参考架构(企业 RA)。这些全面的蓝图可帮助 NVIDIA 系统合作伙伴和联合客户构建自己的 AI 工厂——用于实现智能制造的高性能、可扩展且安全的数据中心。
建设人工智能工厂以释放企业增长潜力
NVIDIA Enterprise RA 通过提供全栈硬件和软件建议以及有关现代 AI 工作负载的最佳服务器、集群和网络配置的详细指导,帮助组织在设计 AI 工厂时避免陷阱。
企业 RA 可以通过提供简化的方法来构建灵活且经济高效的加速基础设施,同时确保兼容性和互操作性,从而减少部署 AI 基础设施解决方案的时间和成本。
每个企业 RA 均包含以下建议:
- 加速基础设施建设基于优化的NVIDIA 认证服务器配置采用最新的 NVIDIA GPU、CPU 和网络技术,经过测试和验证,可大规模提供性能。
- AI优化的网络与NVIDIA Spectrum-XAI以太网平台和NVIDIA BlueField-3 DPU提供峰值网络性能,并在多个设计点提供最佳网络配置指导,以满足不同的工作负载和规模要求。
- 这NVIDIA 人工智能企业用于生产人工智能的软件平台,其中包括NVIDIA NeMo和英伟达NIM用于轻松构建和部署人工智能应用程序的微服务,以及NVIDIA 基础命令管理器要点用于基础设施配置、工作负载管理和资源监控。
在基于企业 RA 的合作伙伴解决方案上部署 AI 工作负载的企业将受益于:
- 加快上市时间:通过使用 NVIDIA 的结构化方法和推荐设计,企业可以更快地部署 AI 解决方案,从而缩短实现业务价值的时间。
- 表现:基于经过测试和验证的技术,相信 AI 工作负载将以最佳性能运行。
- 可扩展性和可管理性:开发人工智能基础设施,同时结合设计最佳实践,实现灵活性和可扩展性,并帮助确保最佳网络性能。
- 安全:在人工智能基础设施上安全地运行工作负载,该基础设施的设计考虑了零信任、支持机密计算并针对最新的网络安全人工智能创新进行了优化。
- 降低复杂性:通过针对 AI 工作负载的最佳服务器、集群和网络配置,加快部署时间,同时避免设计和规划陷阱。
可用性
NVIDIA 全球合作伙伴可提供基于 NVIDIA Enterprise RA 的解决方案,包括戴尔科技公司,惠普企业,联想和超微。
了解更多关于NVIDIA 认证系统和NVIDIA 企业参考架构。