英语轻松读发新版了,欢迎下载、更新

Apple-Nvidia 合作加速 AI 模型生产

2024-12-19 15:59:57 英文原文

作者:{{ author }} | {{ dateFormatted }}

苹果最新的机器学习研究可以为以下对象创建模型苹果情报通过提出一种技术,在使用 Nvidia GPU 时,生成令牌的速度几乎提高了三倍,速度更快。

为提供基于 AI 的功能(例如 Apple Intelligence)的工具和应用程序创建大型语言模型 (LLM) 的问题之一是,首先生成 LLM 的效率低下。机器学习的训练模型是一个资源密集型且缓慢的过程,通常通过购买更多硬件和增加能源成本来应对。

2024 年初,Apple 发布并开源了 Recurrent Drafter(称为 ReDrafter),这是一种用于提高训练性能的推测性解码方法。它使用结合波束搜索和动态树注意力的 RNN(循环神经网络)草稿模型来预测和验证来自多个路径的草稿标记。

与典型的自回归令牌生成技术相比,这将每个生成步骤的 LLM 令牌生成速度提高了 3.5 倍。

在一个邮政在苹果的机器学习研究网站上,它解释说,除了现有的工作之外,还使用苹果硅,事情并没有就此停止。周三发布的新报告详细介绍了该团队如何应用该研究来创建 ReDrafter,使其可以与 Nvidia GPU 一起投入生产。

Nvidia GPU 通常用于 LLM 生成的服务器中,但高性能硬件通常成本高昂。多 GPU 服务器的成本并不罕见超过 250,000 美元单独的硬件,更不用说任何所需的基础设施或其他连接成本。

Apple 与 Nvidia 合作,将 ReDrafter 集成到 Nvidia TensorRT-LLM 推理加速框架中。由于 ReDrafter 使用其他推测解码方法不使用的运算符,Nvidia 必须添加额外的元素才能使其工作。

通过集成,在工作中使用 Nvidia GPU 的 ML 开发人员现在可以在使用 TensorRT-LLM 进行生产时使用 ReDrafter 的加速令牌生成,而不仅仅是那些使用 Apple Silicon 的开发人员。

在 Nvidia GPU 上对数百亿个参数生产模型进行基准测试后,贪婪编码每秒生成的令牌速度提高了 2.7 倍。

结果是该过程可用于最大限度地减少用户的延迟并减少所需的硬件数量。简而言之,用户可以期望从基于云的查询中获得更快的结果,而公司可以在花费更少的情况下提供更多服务。

在英伟达的技术博客关于这个话题,显卡生产商表示,这次合作使 TensorRT-LLM“更强大、更灵活,使 LLM 社区能够创新更复杂的模型并轻松部署它们。”

该报告是在苹果公司发布之后发布的公开证实该公司正在研究使用亚马逊的 Trainium2 芯片来训练用于 Apple Intelligence 功能的模型的可能性。当时,预计使用这些芯片进行预训练的效率将比现有硬件提高 50%。

关于《Apple-Nvidia 合作加速 AI 模型生产》的评论


暂无评论

发表评论

摘要

Apple 开发了 Recurrent Drafter (ReDrafter),这是一种在使用 Nvidia GPU 时显着加快大型语言模型 (LLM) 中令牌生成速度的技术,几乎将令牌生成速度提高了两倍。该方法之前针对 Apple Silicon 进行了优化,现在与 Nvidia TensorRT-LLM 推理加速框架集成,使 Nvidia GPU 上的贪婪编码每秒生成的令牌数提高了 2.7 倍。这一进步旨在降低基于云的人工智能服务的硬件成本和延迟,同时提高模型训练的效率。