很少有公司能像 Arm 那样推动其行业发展,Arm 控制着移动设备市场背后的大多数生产级指令集架构和 CPU 核心设计。Arm 技术还为越来越多的新兴自动驾驶汽车领域提供动力,支撑快速发展的数据中心处理,并为超过 3000 亿人提供支持物联网设备并计数。
指令集架构 (ISA) 定义了第三方软件如何与硬件的 1 和 0 交互,从而允许开发人员编写与不同设计的微芯片配合使用的代码。Arm 拥有并开发当今几乎所有高效 ISA 以及与其通信的大多数物理片上系统的 IP 知识产权。
尽管它很重要,但大多数消费者并不理解或意识到 Arm 在尖端电子产品开发中的作用。Arm 高级副总裁兼客户业务总经理 Chris Bergey 与 Android Police 坐下来讨论了该公司为增强设备上 AI 处理能力而做出的努力,部分原因是 6 月份在 Computex 上推出了三款新的 Arm Cortex CPU。未来。
Arm 的先进 AI 目标
多方面的进步方法
构建在为无数手机提供动力的 Cortex CPU 之上,最近概述的内核非常重要。Arm 的顶级 Cortex-X925 拥有 35% 的每时钟指令性能提升。这使得更复杂的代码能够以更低的延迟、最小的功耗增加和更高的速度运行,特别是在进行单指令、多数据 (SIMD) 并行处理时,从而提高人工智能性能。
我计划提出新成立的重振 x86 ISA 联盟由英特尔、AMD 和微软等领先者组成。Bergey 立即抢先一步,引用了该公告并自豪地解释道:“坦率地说,这是我们 20 年来一直在做的事情。我们推动架构向前发展,并提供一致性,使开发人员能够针对硬件进行定位并带着它去任何地方。”
为了促进这一进步,Arm 新宣布克莱迪图书馆(伯杰指出,计划将其纳入谷歌广泛的人工智能堆栈中)作为人工智能编程的框架。其中包括 KleidiCV 库集,它概述了计算机视觉技术的扩展,例如自动驾驶汽车以及工业物联网领域。
如果你问我 Arm 的力量是什么,那就是 2000 万开发者……制造优秀的硬件很难,但构建 AI 软件生态系统更难。
——克里斯·伯吉
Kleidi 库是一个独立的微内核或基本软件层,为开发人员构建功能提供必要的工具。前瞻性的 Kleidi 层不依赖外部库,并且明确专注于支持 PyTorch 社区,构成了 Arm 不断扩展的 AI 和 ML 工具包的基础。随着硬件和软件不断引入尖端功能,在人工智能世界中释放 Kleidi 使开发人员能够创建适用于这些成功技术并以这些成功技术为基础的解决方案。
CSS for Client 框架在 Kleidi 库之后发布,但面向不同的合作伙伴,定义了标称 3nm 制造节点上 Arm 最新 CPU 和 GPU 的物理规格。它被分发给高通和联发科等第三方设计人员,以最大限度地降低研发成本,最终加快部署速度。
Arm 致力于先进的设备上并行处理
坚实的基础带来稳定的结构
在我们聊天的早期,Bergey 提到了 Arm 的努力中突出的功能。当我询问 Arm 创新的具体例子时,他又回到了 SVE2。
第二次迭代可扩展向量扩展允许兼容芯片在多个数据点上执行单个指令,这种技术可以实现最有效的并行处理。SVE2 不限于 SVE 较小的矢量宽度,而是从 128 位扩展到 2048 位,是 128 的倍数。这样可以更轻松地编程、提高兼容性,并且在正确实现时可以提高并行性能。
晶体管级隐私的力量
我问 Bergey 先生,经常与晶体管交互的 Arm 技术如何在安全性方面给整个行业带来影响。“将 Arm 视为创建基本构建块并明确工作以确保 CPU 和平台的安全。”我们不是在谈论跟踪 cookie 安全性,而是在谈论潜在的可利用硬件和 ISA 特性,这些特性会削弱原本具有弹性的系统。
作为背景,Bergey 开始说道:“您可能知道,超过 60% 的软件安全漏洞是由于内存缓冲区溢出造成的。”当内存被写入其分配的地址之外时,就会发生缓冲区溢出,从而使所包含的数据容易被拦截或操纵。60% 的数字很高,因为没有防止或标记超限的固有机制。
来源:Cobalt.io
他继续说道,“这是 v9 架构非常关注的事情之一。事实上,我们是第一个平台广泛部署MTE”或内存标记扩展。“MTE 在内存上放置特定的标记,以确保它不会溢出指定的分区边缘。”
Bergey 指出,Arm 使用 OPC 开发的统一架构部署了 MTE,OPC 是一个于 2006 年成立的工业电子工作组。他继续强调,“谷歌支持开发者在 Android 14 中访问 MTE,一些芯片生产商已在 OEM 级别启用它”。虽然 MTE 与用户级安全措施相比有一个数量级的差距,例如双因素身份验证,它仍然密切参与保护敏感数据免遭攻击。
来源:Arm
现任高级副总裁有何感想?“我确实相信设备上人工智能的力量,而隐私显然是原因之一。”
内生效率的影响
自推出第一块微芯片以来,Arm 一直专注于低功耗计算。6MHz、0.1W、塑料封装的 ARM V1 价格便宜、节能,而且出于必要,热量可以忽略不计。当团队第一次启动它时,它也表现得非常完美。在基准测试中,它比时钟频率相似的英特尔芯片高出 10 倍,同时与时钟频率为 17MHz 的 32 位摩托罗拉实现相匹配。
资料来源:英国计算史
Arm 的首款微芯片 Arm V1。
但这不是历史课。Ars Technica 已经涵盖了这一点。我之所以指出 Arm 的超轻量级历史,是因为有些事情永远不会改变。诺基亚、苹果、任天堂、谷歌、亚马逊、高通和英伟达有什么共同点?事实证明,Arm 的高效微芯片和 ISA 是这些标志性科技公司至少一款成功设备的组成部分。
“低功耗计算的想法确实已经在各地传播开来,”伯杰说。“我们现在在数据中心和 AWS 等云公司中占有非常重要的地位,其 Graviton 系列 CPU 是基于 Arm 实现的。
“各大云计算公司都宣布他们将提供 ARM 平台。”Bergey 继续说道:“这是为什么?Arm 拥有这些非常节能的设计。”在我们谈话的早些时候,伯吉提到了当前核动力人工智能的讨论,我一直很想讨论这个话题。“我们已经讨论过功耗在数据中心中的重要性。Arm 成功地将 128 个 CPU 核心放入单个处理器中,TDP 为 250W。”这是两个第 14 代英特尔酷睿芯片热设计功率的两倍,这两个芯片组合起来只有 32 个内核。
从各个方面影响进步
尽管 Arm 的行业塑造 ISA 和 CPU 非常迷人,但它们并不是故事的全部。“有很多不同的 IP,”Bergey 解释道,“但如果你问我 Arm 的力量是什么,那就是 2000 万开发者。这是软件生态系统。制造出色的硬件很难,但构建更难人工智能软件生态系统在整个 CPU 历史上都是如此。”
Bergey再次强调了开发者社区的重要性。“我们计划在 Kleidi 上构建相当多不同的框架,因此开发人员可以一致地编译代码并让它根据硬件功能做正确的事情。这使开发人员能够利用未来的新架构功能,其中许多功能是基于人工智能。
“基于人工智能的架构是一个层面。在另一个层面上,我们坚信异构方法适合人工智能,”Bergey 表示,“这就是我们看待 CPU、GPU 和加速器(通常是当今移动领域中的 NPU)的方式。”Bergey 阐述了 Arm 的使命,“我们专注于确保我们的 CPU 和 GPU 尽可能好地运行这些 AI 工作负载。许多开发人员非常重视 CPU 在整个硬件生态系统中的广度。
“一切都是从 CPU 开始的,”Bergey 澄清道。“但就人工智能应用程序而言,其中 70% 基本上都是在 CPU 上运行。”此时,我们深入探讨了我几个月来一直想知道的几个主题。
人工智能基本上存在于一切事物之中
扩展模型将继续激发专业硬件的灵感
在深入探讨 Arm 的异构方法时,Bergey 承认制造商的 AI 工具经常利用 NPU 和 GPU,但他仍然强调 CPU 的重要性。“这实际上是为开发人员提供多种方法来扩展他们的解决方案方法并获得性能。有些方法严重受计算限制,有些方法受内存限制,有些方法取决于您是否正在构建带有新颖滤镜的相机应用程序,大语言模型,或多模式的东西。”
我提出了重点硬件内容,例如仅限人工智能的内存分区。Bergey 概括地概述了并行处理增加对硬件决策的影响,而没有提及特定公司的组件。“这一切都与模型有关。假设您从 50 亿个参数开始,将它们量化为 4 位,最终需要 2.5GB 内存来加载它。这是 DRAM 的很大一部分,它是静态的吗?不是。加载它由于与 CPU 的事务,模型来回运行并实际运行它会大量消耗 DRAM 总线。
“保持这一点取决于电源管理。将模型保存在非易失性闪存中是否更好?您多久将其带回到内存堆栈中?这是一种单一模型适用于所有情况的情况,还是会您交换不同的模型吗?一家公司的模型适用于大多数开发人员,直到有人想要推出自己的模型。大量 DRAM”。
Bergey 继续说道:“这实际上是限制因素之一。想想旗舰领域有关人工智能的所有讨论,这很棒。谷歌和三星等公司提供了令人惊奇的东西,中国有不同的选择,针对不同的 Android配置。
“现在考虑一下级联到较低价格层的情况。计算元件仍然存在,但我们正在使 CPU 变得超级强大。这样,您不一定需要使用[高端] 40 TOPS NPU,因为您也许您无法负担得起。也许您使用小型 NPU 或在 CPU 和 GPU 上运行所有内容,但您仍然需要增加 DRAM 占用空间,并且在某些地区,DRAM 已经看到了这一点。
“思考手机上人工智能的未来,既有计算元素,也有内存元素,而这不仅仅是 Android 特有的东西。即使其他移动操作系统正在推进这些功能并将其与某些型号联系起来,但它们正在增加他们的通用内存堆栈,尽管它们通常配备的内存要少得多。”
人工智能技术明显推动了行业对某些硬件决策的关注,并将继续如此。
什么是和不是什么 真的人工智能
以及消费者如何辨别差异
相机成像算法和语言翻译器等工具已被使用机器学习组件多年。有鉴于此,我向 Bergey 先生询问哪些功能利用了新颖的人工智能技术(而不是口头上的机器学习),以及过去的机器学习与今天的人工智能有何根本不同。
“这是一个艰难的问题,”伯吉承认,“这是我的观点。每个人都会问这样的问题,‘最好的人工智能应用程序是什么?’或“你每天使用人工智能多少?”也许您的手机上有特定的工具,例如 ChatGPT 客户端,您可以清楚地将其识别为 AI 应用程序。
“然而,对于当今智能手机的许多不同应用来说,人工智能才刚刚开始成为该过程的一部分。相机已经使用它很长时间了,无论是选择最佳连拍镜头,还是使用魔法橡皮擦,或者我认为这些是第一组将人工智能带入手机领域的工具。
来源:Arm
“大型语言模型和多模式融入了更多创意元素,但这并不一定意味着这些只是人工智能应用程序。转录音频就是一个很好的例子。它过去只是文字转录,但现在你可以要求 300- 单词摘要或要点。人工智能以针对数据的各种问题提供更好的建议的形式存在。”
伯吉暂时放弃了软件。“人工智能的影响实际上一直延伸到调制解调器。纵观 6G 标准,人工智能开始占据过去仅用于典型信号处理的空间。无论是在发射器端还是手机的 6G 调制解调器,您都会看到人工智能的使用以及更传统的方法。”
来源:Arm,来自 YouTube
我看着伯吉先生实时给出了我长期以来寻求的答案。“我认为,无论对错,人工智能将继续变得更加普遍,即使只是作为在后台运行的服务。看看 GPU 的演变。以前,你总是最终会以某种方式对内容进行光栅化。甚至帧插值也是相当随机的与过去的渲染方式相比,现在,借助人工智能,我们可以栅格化更少的帧,并更好地近似游戏或引擎中的移动方向,因此您将在图形中看到更多的人工智能。”
“游戏变得越来越庞大,以至于游戏中的代理实际上都启用了人工智能,这产生了影响。这不仅仅是一个愚蠢的算法,不断将敌人逼入墙角。你可以看出来。人工智能-启用的角色可以弄清楚你之前做了什么动作,并这次尝试不同的动作。
“在接下来的几年里,我们将看到更多人工智能衍生的计算技术,因为从能源效率的角度来看,它是有意义的。无论好坏,它都渗透到各处。”
来源:Arm
这样,我知道我找到了答案。无论好坏,人工智能正在渗透一切,影响决策过程,提高效率,并与传统计算集成。在我与伯吉先生交谈之前,我没有意识到我问错了问题。
不要问人工智能是什么,而要问“人工智能在做什么?”
以及开发人员如何使用它
从某种意义上说,伯吉发人深省的观点意味着“人工智能”一词变得更加模糊且难以确定。人工智能不是一门与以前的技术分开使用的离散学科,而是开发人员深层工具箱中的另一个工具。人工智能将继续发挥越来越重要的作用 都发挥着不可分割的作用 发展。
我们无法预测人工智能的发展方向,但车轮正在转动,而且不会放缓。有一点是确定的。Arm 的创新是当今和未来尖端计算技术的核心。正如伯吉沉思的那样,“这一切都始于模型。”随着数据集的解析、参数的量化,训练有素的算法,以及写入存储体的系统,原始性能和寄存器传输级通信发挥着不可避免的作用。
人工智能正在渗透一切,影响决策过程,提高效率,并与传统计算直接集成。
在这里你会发现 Arm,它是硬件和软件之间专利众多、人才丰富的传导层。通过引导强大、高效的通信,它将人工智能带入主流,并为下一代计算奠定基础,但以比人工智能更有意义的方式法学硕士聊天机器人。