就像英伟达之前的那样宣布
NIM、拥抱人脸生成人工智能服务 (HUGS) 本质上只是容器化模型图像,其中包含用户部署模型可能需要的所有内容。这个想法是,用户不必使用 vLLM 或 TensorRT LLM 来获得大规模最佳运行的大型语言模型,而是可以在 Docker 或 Kubernetes 中启动预配置的容器映像,并通过标准 OpenAI API 调用连接到它。HUGS 是围绕其开源文本生成推理构建的(
TGI) 和变形金刚框架和库,这意味着它们可以部署在包括 Nvidia 和 AMD GPU 在内的各种硬件平台上,并且最终将扩展对更专业的人工智能加速器(如亚马逊的 Inferentia 或谷歌的 TPU)的支持。显然还没有喜欢英特尔高迪。
尽管基于开源技术,像 NIMS 这样的 HUGS 并不是免费的。如果部署在 AWS 或 Google Cloud 中,每个容器每小时的费用约为 1 美元。
相比之下,Nvidia 对部署在云中的 NIM 每 GPU 每小时收费 1 美元,对本地部署的每 GPU 收取每年 4,500 美元。如果您要部署更大的模型,例如 Meta 的 Llama 3.1 405B,它跨越 8 个 GPU,那么 Hugging Face 的产品的部署成本将显着降低。此外,对替代硬件类型的支持意味着客户将不再局限于 Nvidia 的硬件生态系统。
HUGS 是否比 NIM 性能更高或更优化,还有待观察。
对于那些希望以较小规模部署 HUGS 的人来说,Hugging Face 还将在 DigitalOcean 的云平台上提供图像,无需额外费用,但您仍然需要支付计算费用。
DigitalOcean 最近宣布推出基于 Nvidia H100 加速器的 GPU 加速虚拟机,这将跑步每个 GPU 每小时 2.5 美元到 6.74 美元之间,具体取决于您是选择单个加速器还是签署 8 个加速器的 12 个月承诺。
最后,那些为 Hugging Face 企业中心订阅者每月支付 20 美元的用户将可以选择在自己的基础设施上部署 HUGS。
在模型方面,Hugging Face 相当保守,主要关注一些最流行的开放模型,包括:
我们预计 Hugging Face 将在不久的将来迅速扩大对其他模型的支持,例如 Microsoft 的 Phi 系列法学硕士。
但是,如果您不喜欢付费购买本质上是开源软件和模型文件的捆绑包,那么没有什么可以阻止任何人使用 vLLM、Llama.cpp、TGI 或 TensorRT LLM 构建自己的容器化模型。您可以找到我们有关容器化 AI 应用程序的实践指南这里。
话虽如此,您真正为 Hugging Faces 的 HUGS 或 Nvidia 的 NIM 付出的代价是调整和优化容器以获得最大性能所花费的时间和精力。®