Hugging Face 挤压了 Nvidia 的 AI 微服务业务

2024-10-24 19:30:00 英文原文

就像英伟达之前的那样宣布

NIM、拥抱人脸生成人工智能服务 (HUGS) 本质上只是容器化模型图像,其中包含用户部署模型可能需要的所有内容。这个想法是,用户不必使用 vLLM 或 TensorRT LLM 来获得大规模最佳运行的大型语言模型,而是可以在 Docker 或 Kubernetes 中启动预配置的容器映像,并通过标准 OpenAI API 调用连接到它。HUGS 是围绕其开源文本生成推理构建的(

TGI) 和变形金刚框架和库,这意味着它们可以部署在包括 Nvidia 和 AMD GPU 在内的各种硬件平台上,并且最终将扩展对更专业的人工智能加速器(如亚马逊的 Inferentia 或谷歌的 TPU)的支持。显然还没有喜欢英特尔高迪。

尽管基于开源技术,像 NIMS 这样的 HUGS 并不是免费的。如果部署在 AWS 或 Google Cloud 中,每个容器每小时的费用约为 1 美元。

相比之下,Nvidia 对部署在云中的 NIM 每 GPU 每小时收费 1 美元,对本地部署的每 GPU 收取每年 4,500 美元。如果您要部署更大的模型,例如 Meta 的 Llama 3.1 405B,它跨越 8 个 GPU,那么 Hugging Face 的产品的部署成本将显着降低。此外,对替代硬件类型的支持意味着客户将不再局限于 Nvidia 的硬件生态系统。

HUGS 是否比 NIM 性能更高或更优化,还有待观察。

对于那些希望以较小规模部署 HUGS 的人来说,Hugging Face 还将在 DigitalOcean 的云平台上提供图像,无需额外费用,但您仍然需要支付计算费用。

DigitalOcean 最近宣布推出基于 Nvidia H100 加速器的 GPU 加速虚拟机,这将跑步每个 GPU 每小时 2.5 美元到 6.74 美元之间,具体取决于您是选择单个加速器还是签署 8 个加速器的 12 个月承诺。

最后,那些为 Hugging Face 企业中心订阅者每月支付 20 美元的用户将可以选择在自己的基础设施上部署 HUGS。

在模型方面,Hugging Face 相当保守,主要关注一些最流行的开放模型,包括:

  • Meta 的 Llama 3.1 8B、70B 和 405B (FP8)
  • Mistral AI 的 Mixtral 8x7B、8x22B 和 Mistral 7B
  • Nous Research 的 Hermes 微调:Meta 的三个 Llama 3.1 型号和 Mistral 的 Mixtral 8x7B
  • Google 的 Gemma 2 9B 和 27B
  • 阿里巴巴的Qwen 2.5 7B

我们预计 Hugging Face 将在不久的将来迅速扩大对其他模型的支持,例如 Microsoft 的 Phi 系列法学硕士。

但是,如果您不喜欢付费购买本质上是开源软件和模型文件的捆绑包,那么没有什么可以阻止任何人使用 vLLM、Llama.cpp、TGI 或 TensorRT LLM 构建自己的容器化模型。您可以找到我们有关容器化 AI 应用程序的实践指南这里

话虽如此,您真正为 Hugging Faces 的 HUGS 或 Nvidia 的 NIM 付出的代价是调整和优化容器以获得最大性能所花费的时间和精力。®

关于《Hugging Face 挤压了 Nvidia 的 AI 微服务业务》的评论


暂无评论

发表评论

摘要

Hugging Face 本周宣布了 HUGS,这是对 Nvidia 推理微服务 (NIM) 的回应,AI 存储库声称该服务将允许客户在更广泛的硬件上部署和运行 LLM 和模型。尽管基于开源技术,像 NIMS 这样的 HUGS 并不是免费的。如果您要部署更大的模型,例如 Meta 的 Llama 3.1 405B,它跨越 8 个 GPU,那么 Hugging Face 的产品的部署成本将显着降低。DigitalOcean 最近宣布推出基于 Nvidia H100 加速器的 GPU 加速虚拟机,每个 GPU 每小时的运行费用为 2.5 至 6.74 美元,具体取决于您是选择单个加速器还是签署 12 个月的八个加速器承诺。您可以在此处找到有关容器化 AI 应用程序的实践指南。Hugging Face 本周宣布了 HUGS,这是对 Nvidia 推理微服务 (NIM) 的回应,AI 存储库声称该服务将允许客户在更广泛的硬件上部署和运行 LLM 和模型。