作者:Samuel K. Moore
, 甲骨文,谷歌、戴尔和其他 13 家公司报告了他们的计算机训练密钥需要多长时间神经网络今天使用中。在这些结果中,我们第一次看到Nvidia 的下一代 GPU, 这B200,以及 Google 即将推出的加速器,称为延龄草。与当今的主力相比,B200 在某些测试中的性能提高了一倍英伟达芯片、H100。和Trillium 的性能比 Google 2023 年测试的芯片提升了近四倍。
基准测试称为 MLPerf v4.1,由六个任务组成:推荐、预训练大语言模型(法学硕士)GPT-3和 BERT-large,微调骆驼270B大语言模型、物体检测、图节点分类、图像生成。
训练GPT-3这是一项艰巨的任务,仅仅为了提供基准而完成整个任务是不切实际的。相反,测试是将其训练到专家确定的程度,这意味着如果你继续下去,它很可能会达到目标。对于 Llama 2 70B,目标不是从头开始训练 LLM,而是采用已经训练过的模型并对其进行微调,使其专门针对特定的专业知识——在本例中,政府文件。图节点分类是一种机器学习用于欺诈检测和药物发现。
随着人工智能中重要内容的发展,主要是使用生成式人工智能,测试集已更改。MLPerf 的最新版本标志着自基准测试工作开始以来测试内容的彻底转变。“此时,所有原始基准都已被淘汰,”说大卫·坎特,谁领导MLCommons 的基准测试工作。在上一轮中,执行一些基准测试只需要几秒钟。
最佳机器学习系统在各种基准测试中的性能已经超出了仅通过摩尔定律(蓝线)获得收益的预期。实线代表当前基准。虚线代表现已废弃的基准,因为它们不再与工业相关。MLCommons
根据 MLPerf 的计算,基于新一套基准的人工智能训练的改进速度约为人们预期的两倍摩尔定律。随着时间的推移,业绩稳定的速度比 MLPerf 统治之初更快。坎特将这主要归因于这样一个事实:公司已经弄清楚如何在非常大的系统上进行基准测试。随着时间的推移,英伟达,谷歌等人开发了软件和网络技术,可以实现近乎线性的扩展——处理器加倍,训练时间大约减少一半。
这一轮标志着 Nvidia 下一代 GPU 架构 Blackwell 的首次训练测试。对于 GPT-3 训练和 LLM 微调,Blackwell (B200) 在每个 GPU 的基础上将 H100 的性能大致提高了一倍。对于推荐系统和图像生成来说,收益虽然稍弱一些,但仍然很可观——分别为 64% 和 62%。这
布莱克威尔架构体现在 Nvidia B200 GPU 中,延续了使用越来越不精确的数字来加速 AI 的持续趋势。对于变压器神经网络的某些部分,例如聊天GPT、 骆驼2 和稳定扩散,英伟达H100和H200使用8位浮点数。B200 将其减少到只有 4 位。
谷歌展示了其 6 的第一批结果th新一代 TPU,称为 Trillium(该产品于上个月才推出),以及其 5 的第二轮结果th一代变体,Cloud TPU v5p。在 2023 年版本中,这家搜索巨头输入了 5 种不同的变体th新一代 TPU v5e 的设计更多的是为了效率而不是性能。与后者相比,Trillium 在 GPT-3 训练任务上的性能提升了 3.8 倍。但与大家的主要竞争对手英伟达相比,情况就没那么乐观了。
由 6,144 个 TPU v5ps 组成的系统在 11.77 分钟内到达了 GPT-3 训练检查点,远远落后于 11,616 个 Nvidia H100 系统,后者在大约 3.44 分钟内完成了任务。该顶级 TPU 系统仅比其一半大小的 H100 计算机快约 25 秒。
一台 Dell Technologies 计算机使用约 75 美分的电力对 Llama 2 70B 大语言模型进行了微调。
在 v5p 和 Trillium 之间最接近的正面比较中,每个系统均由 2048 个 TPU 组成,即将推出的 Trillium 将 GPT-3 训练时间缩短了 2 分钟,比 v5p 提高了近 8%29.6 分钟。Trillium 和 v5p 条目之间的另一个区别是 Trillium 与AMDEpyc CPU 代替 v5p™英特尔至强。
Google 还使用 Cloud TPU v5p 训练了图像生成器 Stable Diffusion。Stable Diffusion 有 26 亿个参数,是一个足够轻的提升,MLPerf 参赛者被要求训练它收敛,而不仅仅是像 GPT-3 那样训练到检查点。1024 TPU 系统位居第二,完成任务的时间为 2 分 26 秒,比由 Nvidia H100 组成的相同尺寸系统落后约一分钟。
训练神经网络的高昂能源成本长期以来一直令人担忧。MLPerf 才刚刚开始对此进行衡量。戴尔科技集团是能源类别中唯一的进入者,其八服务器系统包含 64 个 Nvidia H100GPU和 16英特尔至强白金 CPU。唯一的测量是在 LLM 微调任务 (Llama2 70B) 中进行的。该系统在 5 分钟运行期间消耗了 16.4 兆焦耳,平均功率为 5.4 千瓦。这意味着按照美国的平均成本计算,电费约为 75 美分。
虽然它本身并没有说明太多,但结果确实可能为类似系统的功耗提供一个大概的数据。例如,Oracle 使用相同数量和类型的 CPU 和 GPU 报告了接近的性能结果(4 分 45 秒)。