英语轻松读发新版了,欢迎下载、更新

从内而外构建工业人工智会,为更强大的数字核心

2025-09-10 14:57:24 英文原文

一家制造商正在将AI培训工作负载在鹅卵石,存储和开关基础架构的系统中,并认为它具有实现其目标的所有必要技术。但是该公司对组件如何真正合作的方式很少考虑。

问题很快浮出水面。训练周期拖了几天而不是数小时。昂贵的硬件闲置。工程团队开始怀疑他们的AI投资是否会得到回报。

这种体验不是独一无二的。随着人工智能在全球范围内成为工业运营的关键要素,许多组织正在发现一个违反直觉的真理:最大的突破不是来自堆积更多的GPU或更大的模型,而是从精心设计整个基础设施到单一集成系统的工作。

结局的工程

那个鹅卵石的系统是什么?当它适当地设计以平衡计算,网络和存储时,改进是快速而戏剧性的,杰森·哈迪(Jason Hardy)是日立范塔拉(Hitachi Vantara)的AI CTO:在输出时增加了20倍的提升和匹配的壁时钟时间的匹配时间,这是完成AI训练周期的实际时间。

Hardy解释说,必须对基础架构进行设计,以便您准确地了解每个组件提供的内容。”您想知道GPU如何驱动特定结果,如何影响数据要求以及对吞吐量和带宽的要求。

使系统顺利进行,这意味着要面对大多数组织宁愿避免的挑战:老化的基础架构。

Hardy指出了一个半导体制造商,该制造商的系统表现良好,直到AI进入图片为止。他说,一旦他们将AI扔到它上面,只需阅读这些系统中的数据就会停止。”

这种情况反映了广泛的工业现实。制造环境通常依赖于多年甚至几十年来一直可靠运行的系统。Hardy说:``Hardy说:'我能想到的是Windows 95仍然存在的地方,每天都在制造中使用。”这些线已经运行了数十年。

现在的寿命与新需求相撞:工业AI比传统的企业应用程序需要更多的数据吞吐量,而传统系统只能跟上。挑战在愿望和能力之间造成了根本的不匹配。

Hardy解释说,我们有我们想要追求的这种变革结果。我们有以前有足够好的落后技术,但是现在我们需要更多的东西。

从实时要求到主权AI

在工业AI中,绩效需求通常会使企业工作负载看起来很悠闲。Hardy描述了亚洲制造商的视觉检查系统,该系统完全依赖于实时图像分析以进行质量和成本控制。他说,他们希望AI进行质量控制并提高收益率,同时也控制成本。”

AI必须以生产速度处理高分辨率图像,没有延迟,没有云往返。该系统不仅可以标记缺陷,但会将其追溯到上游机器,从而导致问题,从而立即维修。它还可以通过动态地重新安装替代用途来挽救部分损坏的产品,从而减少废物,同时保持产量。

所有这些都是实时发生的,同时收集遥测以不断地重新训练模型,将浪费问题变成了随着时间的推移而改善的优化优势。

哈迪说,使用云专门引入延迟,使近实时的处理变得不可能。从将数据发送到远程服务器到等待结果的延迟可能满足制造业的毫秒要求。

Hardy倡导一种混合方法:具有针对关键任务,实时任务的本地思维方式的设计基础架构,并利用云来实现爆发能力,开发和非延迟敏感的云友好型工作负载。该方法还满足了对主权AI解决方案的不断增长的需求。主权AI确保关键任务AI系统和数据保留在国家边界内,以进行监管和文化合规性。正如Hardy所说,像沙特阿拉伯这样的国家正在大力投资将AI资产带入国内以维持主权,而印度正在建立语言和文化特定的模型,以准确反映其数千种语言和微文化。

人工智能基础设施不仅仅是肌肉

这样的高级性能不仅需要快速硬件。它需要一种工程思维方式,始于所需的结果和数据源。正如Hardy所说的那样,您应该退后一步,而不仅仅是说,您需要价值一百万美元的GPU。”他指出,有时候,85%的准备就足够了,强调实用性而不是完美。

从那里开始,重点转向了纪律严明的,具有成本意识的设计。哈迪说。`如果一个AI项目来自您自己的预算,那么您愿意花多少钱解决问题?然后根据现实的评估进行工程师。

这种心态迫使纪律和优化。该方法之所以起作用,是因为它考虑了工业方面(运营要求)和IT方面(技术优化) - 他说的一种组合很少见。

Hardy的观察与最近关于工业环境中混合计算体系结构的学术研究相吻合。一项2024年的研究技术,信息学和工程杂志1发现工程的CPU/GPU系统的精度达到了88.3%的精度,而使用少于GPU的设置的能量却少,从而证实了工程方法的好处。

误解基础设施的财务影响可能很大。Hardy指出,组织传统上已经超越了GPU资源,这些资源在大部分时间内都闲置,而错过了适当的系统工程的性能增长。Hardy说:``购买GPU资源池的传统方法带来了很多浪费。”基础设施优先的方法消除了这种效率低下的同时取得了较高的结果。”

避免关键任务

在工业AI中,错误可能是灾难性的铁路开关,没有紧急关闭的输送机或设备故障可能会伤害人们或停止生产。Hardy说,我们有道德上的偏见,以确保我们在工业综合体中所做的一切都是100%准确的。” Hardy说。

这项承诺塑造了日立的方法:冗余系统,故障保护和谨慎的推出确保可靠性优先于速度。Hardy解释说,它不会以光速移动。

这些赌注有助于解释为什么Hardy对AI项目成功率有务实的看法。他说,尽管80-90%的人工智能项目从未进行过生产,但这样做可以证明全部努力的合理性。”不做任何事情都是没有选择的。我们必须前进和创新。

有关平衡和最佳AI性能的工程系统的更多信息,请参见AI分析平台|日立智商


杰森·哈迪是一家专门从事数据驱动AI解决方案的公司的Hitachi Vantara的AI CTO。该公司的Hitachi IQ平台是一种可扩展且高性能的交钥匙解决方案,在启用了平衡计算,网络和存储以满足企业和工业AI需求的基础架构方面起着至关重要的作用。


1优化行业中的AI性能:基于大数据的混合计算体系结构方法|技术信息学杂志

关于《从内而外构建工业人工智会,为更强大的数字核心》的评论


暂无评论

发表评论

摘要

由于不当集成的硬件组件,制造商的AI培训工作量遇到了问题,导致效率低下。这突出了一个更广泛的问题,即通常将重点放在添加更多的GPU或更大的模型上,而不是设计集成的基础架构系统。在优化计算,网络和存储余额后,适当设计的系统可以带来显着的性能提升,如日立Vantara客户的20倍输出增加。这篇文章强调了解决老化基础设施,设计具有成本意识的AI基础设施以及确保关键任务工业应用的可靠性的重要性。