- 与 TPU v5e 相比,Trillium 提供 4 倍的训练提升和 3 倍的推理改进
- 增强 HBM 和 ICI 带宽以支持 LLM
- 每个 Pod 最多可扩展 256 个芯片,非常适合广泛的 AI 任务
谷歌Cloud 发布了最新的 TPU Trillium,这是其定制 AI 芯片系列中的第六代模型,旨在为高级 AI 工作负载提供支持。
Trillium 于 2024 年 5 月首次发布,旨在处理大规模训练、调整和推理,并提高性能和成本效率。
该版本是 Google Cloud 人工智能超计算机基础设施的一部分,该基础设施将 TPU、GPU 和 CPU 与开放软件集成在一起,以满足生成人工智能日益增长的需求。
A3 Ultra 虚拟机即将推出
Trillium 承诺比其前身 TPU v5e 进行重大改进,训练性能提高 4 倍以上,推理吞吐量提高 3 倍。Trillium 提供两倍的 HBM 容量和双倍的芯片间互连 (ICI) 带宽,使其特别适合 Gemma 2 和 Llama 等大型语言模型,以及计算量大的推理应用程序,包括稳定扩散 XL 等扩散模型。
谷歌还热衷于强调 Trillium 对能源效率的关注,据称与前几代产品相比,能源效率提高了 67%。
谷歌表示,其新型 TPU 在基准测试中表现出显着提高的性能,使 Gemma 2-27b 和 Llama2-70B 等模型的训练速度提高了 4 倍。对于推理任务,Trillium 的吞吐量是 TPU v5e 的 3 倍,特别是在需要大量计算资源的模型中表现出色。
据谷歌称,扩展性是 Trillium 的另一个优势。TPU 可以在单个高带宽 Pod 中连接多达 256 个芯片,并可扩展到 Google Jupiter 数据中心网络中的数千个芯片,为广泛的 AI 训练任务提供近线性扩展。借助 Multislice 软件,Trillium 可以在数百个 Pod 中保持一致的性能。
配合 Trillium 的到来,Google 还发布了 A3 Ultra VM,该 VM 具有英伟达H200 张量核心 GPU。计划于本月进行预览,他们将为谷歌云客户在这家科技巨头的人工智能基础设施中提供高性能 GPU 选项。
Trillium TPU,为人工智能的未来提供动力 - YouTube