作者:Written by Jason Perlow, Senior Contributing Writer Dec. 12, 2024 at 3:00 a.m. PT
作为公司的第六代张量处理单元(TPU),Trillium 承诺重新定义大规模人工智能基础设施的经济性和性能。旁边双子座2.0,专为“代理时代”设计的先进人工智能模型,以及深入研究Trillium 是一款简化复杂机器学习查询管理的工具,它是 Google 重塑其人工智能和云产品的最成熟、最雄心勃勃的努力。
还:谷歌的 Gemini 2.0 人工智能有望通过代理进步变得更快、更智能
以下是 Trillium 能够成为 Google 人工智能和云战略游戏规则改变者的五个令人信服的理由:
Trillium 最引人注目的特点之一是其卓越的成本和性能指标。谷歌声称,与前几代 TPU 相比,Trillium 的训练性能提高了 2.5 倍,推理吞吐量提高了 3 倍。对于希望降低培训大型语言模型 (LLM)(如 Gemini 2.0)和管理推理繁重任务(如图像生成和推荐系统)相关成本的企业来说,Trillium 提供了一种经济上有吸引力的替代方案。
被像这样的公司早期采用AI21实验室强调了 Trillium 的潜力。AI21 Labs 是 TPU 生态系统的长期用户,报告称在使用 Trillium 训练其大型语言模型时,在成本效率和可扩展性方面取得了显着的进步。
“在 AI21,我们不断努力提高 Mamba 和 Jamba 语言模型的性能和效率。作为自 v4 以来 TPU 的长期用户,我们对 Google Cloud Trillium 的功能印象深刻。规模、速度方面的进步我们相信 Trillium 对于加速我们下一代复杂语言模型的开发至关重要,使我们能够为客户提供更强大、更易于使用的人工智能解决方案。” - Barak Lenz,AI21 实验室首席技术官
这些初步结果证明了 Trillium 令人印象深刻的功能及其实现 Google 性能和成本声明的能力,使其成为已集成到 Google 基础设施中的组织的一个令人信服的选择。
Trillium 旨在以卓越的可扩展性处理大量人工智能工作负载。Google 拥有 12 个 Pod(3,072 个芯片)的扩展效率为 99%,24 个 Pod 的效率为 94%强大的开源模型例如 Gemini、Gemma 2 和 Llama 3.2。这种近乎线性的扩展确保了 Trillium 可以有效地管理大量的训练任务和大规模部署。
此外,Trillium 与 Google Cloud 的 AI 超级计算机的集成允许将超过 100,000 个芯片无缝添加到单个 Jupiter 网络结构中,提供 13 Petabits/sec 的带宽。对于需要强大而高效的人工智能基础设施来支持其不断增长的计算需求的企业来说,这种级别的可扩展性至关重要。
还:这是谷歌的末日吗?这种新的人工智能工具不仅是竞争,而且是胜利
在数千个芯片上保持高扩展效率使 Trillium 成为大规模人工智能训练任务的有力竞争者。这种可扩展性确保企业可以在不影响性能或产生过高成本的情况下扩展其人工智能业务,使 Trillium 成为对人工智能雄心勃勃的企业有吸引力的解决方案。
Trillium 旨在提供卓越的性能并节省成本,采用先进的硬件技术,使其与早期的 TPU 和竞争对手区分开来。主要创新包括双倍高带宽内存 (HBM),可提高数据传输速率并减少瓶颈。此外,作为其一部分TPU系统架构,它采用了第三代 SparseCore,通过将资源引导到最重要的数据路径来提高计算效率。
每个芯片的峰值计算性能也显着提高了 4.7 倍,显着提高了处理能力。这些进步使 Trillium 能够处理高要求的人工智能任务,为人工智能未来的发展和应用奠定了坚实的基础。此外,硬件改进提高了性能并有助于提高能源效率,使 Trillium 成为大规模人工智能操作的可持续选择。通过投资先进硬件,谷歌确保 Trillium 始终处于人工智能处理能力的前沿,支持日益复杂和资源密集型的人工智能模型。
Trillium 与 Google Cloud 的 AI 超级计算机的深度集成是一个显着的优势。通过利用 Google 广泛的云基础设施,Trillium 优化了 AI 工作负载,使部署和管理 AI 模型更加高效。这种无缝集成增强了 Google Cloud 上托管的 AI 应用程序的性能和可靠性,为企业提供满足其 AI 需求的统一且优化的解决方案。对于已经投资于 Google 生态系统的组织,Trillium 提供了高度集成和简化的途径来有效扩展其人工智能计划。
还:Gemini 的新深度研究功能可以像助手一样为您搜索网络
Trillium 不仅是一种功能强大的 TPU,更是一种强大的 TPU。它是更广泛战略的一部分,其中包括双子座2.0,专为“代理时代”设计的先进人工智能模型,以及深入研究,一种简化复杂机器学习查询管理的工具。这种生态系统方法确保了 Trillium 保持相关性并能够支持下一代人工智能创新。通过将 Trillium 与这些先进的工具和模型结合起来,谷歌正在使其人工智能基础设施面向未来,使其能够适应人工智能领域的新兴趋势和技术。
另外: 英特尔的没落:新一代人工智能如何帮助推翻巨头并改变我们所知的计算技术
这种战略联盟使谷歌能够提供超越单纯处理能力的全面人工智能解决方案。通过将 Trillium 与尖端人工智能模型和管理工具相集成,谷歌确保企业能够充分利用其人工智能投资的潜力,在快速发展的技术领域保持领先地位。
虽然 Trillium 提供了巨大的优势,但 Google 面临着来自 NVIDIA 和 Amazon 等行业领导者的激烈竞争。NVIDIA 的 GPU,尤其是 H100 和 H200 型号,以其高性能以及通过成熟的 CUDA 生态系统支持领先的生成式 AI 框架而闻名。此外,NVIDIA 即将推出的 Blackwell B100 和 B200 GPU 预计将增强对经济高效的扩展至关重要的低精度运算,从而保持 NVIDIA 在 AI 硬件市场的强势地位。
另外: ChatGPT 的数据分析工具如何在无需编程的情况下产生可操作的业务见解
Trillium 与 Google Cloud 的紧密集成可最大限度地提高效率,但在可移植性和灵活性方面提出了挑战。与 AWS 不同的是,AWS 采用混合方法,允许企业同时使用 NVIDIA GPU 和培训班无论是芯片还是 NVIDIA 高度便携的 GPU(可在各种云和本地环境中无缝运行),Trillium 对单云的依赖可能会限制其对追求多云或混合解决方案的组织的吸引力。
Amazon 的第二代 Trainium 现已全面上市,与 NVIDIA GPU 相比,用于训练大型语言模型 (LLM) 的性价比提高了 30-40%,并且该公司最近与“雷尼尔计划”一起推出了第三代版本,一个庞大的新训练集群。AWS 的混合策略最大限度地降低了风险,同时优化了性能,为多样化的部署需求提供了比 Google Trillium 更大的灵活性。
还: 亚马逊 AWS 推出 Trainium3 芯片 Project Rainier
Trillium 的成功将取决于证明其性能和成本优势能够胜过 NVIDIA 和 Amazon 提供的生态系统成熟度和可移植性。谷歌必须利用其卓越的成本和性能指标,探索增强 Trillium 生态系统兼容性(超越谷歌云)的方法,以吸引更广泛的企业寻求多功能人工智能解决方案。
谷歌的 Trillium 代表了为推进人工智能和云计算基础设施而做出的大胆而雄心勃勃的努力。凭借其卓越的成本和性能效率、卓越的可扩展性、先进的硬件创新、与谷歌云的无缝集成以及与未来人工智能发展的契合,Trillium 有潜力吸引寻求优化人工智能解决方案的企业。AI21 Labs 等采用者的早期成功凸显了 Trillium 令人印象深刻的功能及其兑现 Google 承诺的能力。
还:就连 Nvidia 的 CEO 也对 Google 的 NotebookLM AI 工具着迷
然而,由 NVIDIA 和亚马逊主导的竞争格局带来了巨大的挑战。为了确保其地位,谷歌必须解决生态系统的灵活性,展示独立的性能验证,并可能探索多云兼容性。如果成功,Trillium 可以显着提升谷歌在人工智能和云计算市场的地位,为大规模人工智能运营提供强大的替代方案,并帮助企业更有效地利用人工智能技术。