Hugging Face 挤压了 Nvidia 的 AI 微服务业务

2024-10-24 19:30:00 英文原文

就像英伟达之前的那样宣布

NIM、拥抱人脸生成人工智能服务 (HUGS) 本质上只是容器化模型图像，其中包含用户部署模型可能需要的所有内容。这个想法是，用户不必使用 vLLM 或 TensorRT LLM 来获得大规模最佳运行的大型语言模型，而是可以在 Docker 或 Kubernetes 中启动预配置的容器映像，并通过标准 OpenAI API 调用连接到它。HUGS 是围绕其开源文本生成推理构建的（

TGI）和变形金刚框架和库，这意味着它们可以部署在包括 Nvidia 和 AMD GPU 在内的各种硬件平台上，并且最终将扩展对更专业的人工智能加速器（如亚马逊的 Inferentia 或谷歌的 TPU）的支持。显然还没有喜欢英特尔高迪。

尽管基于开源技术，像 NIMS 这样的 HUGS 并不是免费的。如果部署在 AWS 或 Google Cloud 中，每个容器每小时的费用约为 1 美元。

相比之下，Nvidia 对部署在云中的 NIM 每 GPU 每小时收费 1 美元，对本地部署的每 GPU 收取每年 4,500 美元。如果您要部署更大的模型，例如 Meta 的 Llama 3.1 405B，它跨越 8 个 GPU，那么 Hugging Face 的产品的部署成本将显着降低。此外，对替代硬件类型的支持意味着客户将不再局限于 Nvidia 的硬件生态系统。

HUGS 是否比 NIM 性能更高或更优化，还有待观察。

对于那些希望以较小规模部署 HUGS 的人来说，Hugging Face 还将在 DigitalOcean 的云平台上提供图像，无需额外费用，但您仍然需要支付计算费用。

DigitalOcean 最近宣布推出基于 Nvidia H100 加速器的 GPU 加速虚拟机，这将跑步每个 GPU 每小时 2.5 美元到 6.74 美元之间，具体取决于您是选择单个加速器还是签署 8 个加速器的 12 个月承诺。

最后，那些为 Hugging Face 企业中心订阅者每月支付 20 美元的用户将可以选择在自己的基础设施上部署 HUGS。

在模型方面，Hugging Face 相当保守，主要关注一些最流行的开放模型，包括：

Meta 的 Llama 3.1 8B、70B 和 405B (FP8)
Mistral AI 的 Mixtral 8x7B、8x22B 和 Mistral 7B
Nous Research 的 Hermes 微调：Meta 的三个 Llama 3.1 型号和 Mistral 的 Mixtral 8x7B
Google 的 Gemma 2 9B 和 27B
阿里巴巴的Qwen 2.5 7B

我们预计 Hugging Face 将在不久的将来迅速扩大对其他模型的支持，例如 Microsoft 的 Phi 系列法学硕士。

但是，如果您不喜欢付费购买本质上是开源软件和模型文件的捆绑包，那么没有什么可以阻止任何人使用 vLLM、Llama.cpp、TGI 或 TensorRT LLM 构建自己的容器化模型。您可以找到我们有关容器化 AI 应用程序的实践指南这里。

话虽如此，您真正为 Hugging Faces 的 HUGS 或 Nvidia 的 NIM 付出的代价是调整和优化容器以获得最大性能所花费的时间和精力。®

关于《Hugging Face 挤压了 Nvidia 的 AI 微服务业务》的评论

暂无评论

发表评论

摘要

Hugging Face 本周宣布了 HUGS，这是对 Nvidia 推理微服务 (NIM) 的回应，AI 存储库声称该服务将允许客户在更广泛的硬件上部署和运行 LLM 和模型。尽管基于开源技术，像 NIMS 这样的 HUGS 并不是免费的。如果您要部署更大的模型，例如 Meta 的 Llama 3.1 405B，它跨越 8 个 GPU，那么 Hugging Face 的产品的部署成本将显着降低。DigitalOcean 最近宣布推出基于 Nvidia H100 加速器的 GPU 加速虚拟机，每个 GPU 每小时的运行费用为 2.5 至 6.74 美元，具体取决于您是选择单个加速器还是签署 12 个月的八个加速器承诺。您可以在此处找到有关容器化 AI 应用程序的实践指南。Hugging Face 本周宣布了 HUGS，这是对 Nvidia 推理微服务 (NIM) 的回应，AI 存储库声称该服务将允许客户在更广泛的硬件上部署和运行 LLM 和模型。

Hugging Face 挤压了 Nvidia 的 AI 微服务业务

关于《Hugging Face 挤压了 Nvidia 的 AI 微服务业务》的评论

发表评论

摘要

相关新闻

相关讨论