- 低效的 GPU 资源共享和手动分配阻碍了 GPU 的投资回报率
- 组织面临 GPU 利用率不足的问题,并且缺乏可扩展的自助服务访问的自动化软件
- 电信公司正在提供 GPU 云来与超大规模企业竞争,旨在优化人工智能和非人工智能工作负载
由于 GPU 使用效率低下,寻求人工智能投资回报的企业正在放弃资金。
Rafay Systems 首席执行官 Haseeb Budhani 表示,组织面临着以自助服务模式访问人工智能资源的压力。他告诉 Fierce Network,这些组织面临着“迫切需要让开发人员和数据科学家能够轻松使用 GPU,从而推动企业采用支持可扩展和高效部署模型的平台”。– 然而,许多企业缺乏必要的基础设施来满足这些不断变化的需求。 – Rafay 提供自动配置云资源(包括 GPU)的软件。
低效的流程和平台导致昂贵的 GPU 闲置。Budhani 表示,如果没有适当的虚拟化和多租户功能,一些组织可能会将整个 GPU 服务器分配给个人用户或团队,即使他们只需要该容量的一小部分。“组织必须购买超出服务多个用户所需数量的 GPU,以极其昂贵的价格在公共云中运行 GPU 工作负载,或者在数据中心维护未充分利用的 GPU 硬件,”他补充道。
还,一个 许多组织缺乏自动轻松访问 GPU 的软件,从而延迟了开发,导致近三分之一的企业使用的 GPU 容量不足 15%。最近的拉斐研究。研究发现 44% 的组织优先考虑启用自助计算消费,但“大多数”缺乏实现这一目标所需的标准化平台。Budhani 表示,组织不再允许开发人员简单地按下按钮来访问 GPU 资源,而是在手动分配过程中苦苦挣扎,这会造成延迟和低效率。
对于这些公司来说,构建一个支持自助加速计算硬件和 AI/ML 工作台的平台可能是一个耗时的过程,通常需要“一到两年”的时间。
用于非 AI 投资回报率的 GPU
Hammerspace 的首席营销官 Molly Presley 表示,数据挑战加剧了 GPU 投资回报率的挑战。Hammerspace 提供了一个跨多个云统一非结构化数据的平台。她告诉 Fierce,组织需要在有效利用 GPU 之前清理、移动和标记非结构化数据。
像 Meta 这样的数据密集型公司利用其大数据集和成熟的人工智能策略,在实现 GPU 投资投资回报方面处于领先地位。对于那些在人工智能战略上进展不远的组织来说,这是个好消息吗?GPU 同时可以在其他地方产生投资回报。
最近的一个锤子空间报告表明 GPU 正在用于非人工智能、大数据和高性能计算 (HPC) 应用程序。Presley 表示,公司可以通过优化 GPU 操作来支持人工智能和非人工智能用例,从而在竞争中取得领先。当新的人工智能应用程序出现时,正确的基础设施将使 GPU 能够轻松地迁移到新的人工智能应用程序中。
普雷斯利建议,为了让人工智能超越探索阶段,公司必须投资于优化的基础设施和统一的全球数据平台。这些可以实现高效的数据处理和人工智能工作负载的无缝扩展。通过解决瓶颈,企业和电信公司可以充分利用其 GPU 投资。
电信公司和 GPU 云
在 GenAI 热潮中,电信公司通过提供 GPU 云等服务来拥抱 GPU,以与超大规模企业竞争。然而,这些电信公司面临着障碍,包括来自公共云的竞争以及跨人工智能和非人工智能应用程序有效共享 GPU 的挑战。
Budhani 指出,大多数 CSP 现在都提供 GPU 即服务,无论是作为裸机服务器、虚拟机还是 Kubernetes 集群。然而,这种方法“竞争力不强,因为客户最终可能会选择最便宜的解决方案来满足他们的需求”,他说。
另一方面,一些电信公司正在推出专门用于 GPU 的云(自然而然地称为 GPU 云)。同样,IBM 和 AMD 最近宣布合作,在 IBM Cloud 上部署 AMD 加速器即服务。该产品预计将于 2025 年上半年推出,旨在提高 HPC 应用程序等 Gen AI 模型的性能和能效。
Budhani 表示,此类 GPU 云为电信公司提供了与公共云竞争的独特机会。