OC

Knowledge OS
鹦鹉螺口语
这个操作系统悄悄地为所有人工智能以及大多数未来的 IT 工作提供支持
2026-01-22 02:01:00 · 英文原文

这个操作系统悄悄地为所有人工智能以及大多数未来的 IT 工作提供支持

作者:Written by

Why AI runs on Linux
Elyse Betters Picaro / ZDNET

关注 ZDNET:将我们添加为首选来源在谷歌上。


ZDNET 的主要要点

  • 人工智能在 Linux 上运行。时期。没有替代品。
  • Canonical 和 Red Hat 正在构建 Nvidia Vera Rubin 专用的 Linux 发行版。
  • Linux 内核正在针对 AI 和 ML 工作负载进行调整。

现代人工智能始于开源,并且它在 Linux 上运行。如今,Linux 不仅对人工智能很重要,而且对人工智能也很重要。它是当今整个现代人工智能堆栈运行的基础。从超大规模训练集群到边缘推理盒,从上到下都是 Linux。

另外: 我尝试了一个承诺免费、内置人工智能的 Linux 发行版 - 但事情变得很奇怪

人工智能的魔术实际上是非常平淡的基础设施的聚合输出:超级计算机、GPU 农场和云集群,几乎都运行某种 Linux 风格。核心机器学习框架——TensorFlow、PyTorch、scikit-learn 等等——都是首先在 Linux 上开发和调整。围绕这些工具(从 Jupyter 和 Anaconda 到 Docker 和 Kubernetes)的工具也同样针对 Linux 进行了优化。 

为什么 IT 工作在 Linux 上生死存亡

为什么?因为研究人员和生产工程师实际上是在 Linux 上部署人工智能的。未来的 IT 工作将在 Linux 上生存和消亡。 

您会看到,AI 在 Linux 上运行,因为对于现代 AI 所需的 GPU 繁重、分布式工作负载来说,它是最灵活、最强大且可扩展的环境。此外,整个工具和云生态系统已在 Linux 上实现标准化。 

是的,每个 AI 平台,无论是 OpenAI、Copilot、Perplexity、Anthropic 还是您最喜欢的 AI 聊天机器人,都是基于 Linux 构建的,加上驱动程序、库和编排,所有这些都以不同的方式粘合在一起。专有位可能会抢占品牌地位,但如果没有 Linux,它们就无处可去。

这意味着更多的 Linux 工作岗位。 

作为 Linux 基金会的 2025 年科技人才状况报告值得注意的是,人工智能正在推动科技岗位的净增长,尤其是 Linux 岗位。报告称,这归结为“人工智能正在重塑角色,而不是消除角色”,“导致技能需求的变化和劳动力增长的新机会。” 

除了增加 Linux 系统和网络管理工作之外,该网站 Linux 职业看到“一个迅速出现的趋势,涉及将 Linux 专业知识与人工智能相结合的专业人士和机器学习操作。”此类新的 AI/Linux 职位包括 AI 运营专家、MLOps 工程师、ML 工程师和 DevOps/AI 工程师。

当然,Linux 发行商知道这一切,这就是为什么当新的 Linux 发行版发布时,其制造商会强调人工智能功能。

例如,规范的红帽正在竞相在 Nvidia 上插上他们的 Linux 旗帜 新维拉·鲁宾AI超级计算机平台。这场竞赛的目的是看谁将拥有“千兆级人工智能工厂”的操作系统层。

就其本身而言,红帽正在推出红帽企业 Linux (RHEL)英伟达。这个精选的 RHEL 版本专门针对 Nvidia 的 Rubin 平台进行了优化,包括Vera Rubin NVL72 机架规模系统. . . 

另外: AI 和 Rust 如何重写 Linux 和 Windows 编程

该公司表示,该变体将在 Day 0 中支持 Vera CPU、Rubin GPU 和 Nvidia 的 CUDA X 堆栈,并通过 Red Hat 存储库直接提供经过验证的 OpenRM 驱动程序和工具包。

Linux 内核和 AI

Canonical 还推出了对 Nvidia Rubin 平台的官方 Ubuntu 支持,同样针对 Vera Rubin NVL72。这家总部位于伦敦的公司的故事围绕着将基于 Arm 的定制 Vera CPU 打造成“一等公民”,并在即将推出的产品中与 x86 平价。Ubuntu 26.04 发布. . . 

因此,与 Red Hat 仅针对 Nvidia 处理器提供 RHEL 不同,新的 Ubuntu 将支持 Nvidia。该版本还将上游功能,例如嵌套虚拟化ARM 内存分区和监控 (MPAM)更好地为多租户人工智能工作负载划分内存带宽和缓存。

另外: 就连 Linus Torvalds 现在也开始进行 vivi 编码了

运行这一切的是 Linux 内核,该内核经过不断修改,以满足人工智能对硬件加速的贪婪需求。现代内核兼顾 GPU 和专用加速器驱动程序、用于快速移动张量的复杂内存管理以及针对大规模并行批处理作业进行调整的调度程序。 

简而言之,内核在过去十年中经过重新设计,成为人工智能硬件加速器的操作系统。

内存:将数据放在 GPU 所在的位置

具体来说,最重要的推动因素之一是异构内存管理。这使得设备内存(例如图形处理单元/视频随机存取内存 (GPU VRAM))能够集成到 Linux 的虚拟内存子系统中。 

结合直接内存访问缓冲 (DMA-BUF) 和非统一内存访问 (NUMA)优化,使人工智能运行时能够保持张量靠近加速器并减少数据复制,这往往会降低性能。

另外: 下面是我最终如何使用这个 AI 终端应用程序解决了一个棘手的 Linux 问题

最近的内核还将高级 CPU-GPU 组合(例如紧密耦合的 NUMA 式 CPU/GPU 节点)视为一等公民。这样,内存就可以按需在 CPU 连接的 RAM 和高带宽 GPU 内存之间迁移。 

正如 Nvidia 所解释的那样,“使 CPU 和 GPU 能够共享单个每进程页表,使所有 CPU 和 GPU 线程能够访问所有系统分配的内存”。

加速器:一个真正的子系统,而不是附加组件

Linux 现在拥有专用的计算加速器子系统旨在将 GPU、张量处理单元 (TPU) 和自定义 AI 专用集成电路 (ASIC) 暴露给您的 AI 和机器学习 (ML) 程序。 

最重要的是,通过直接渲染管理器 (DRM)、ROCm 和 OpenCL 等开放堆栈以及 Nvidia 的计算统一设备架构 (CUDA) 驱动程序,GPU 支持已经从图形优先发展到计算密集型。

另外: 人工智能已经成为 Linux 管道的一部分——无论开发者是否喜欢

内核工作已扩展到涵盖较新的人工智能加速器,例如英特尔的 Habana Gaudi、谷歌的 Edge TPU 和 FPGA/ASIC 板,以及驱动程序和总线抽象。这使得 PyTorch 或 TensorFlow 等 AI 程序能够将它们视为另一个设备并使用它们。因此,今天任何制造新人工智能芯片的人都正确地假设 Linux 将在其上运行。

调度:为饥饿的加速器提供食物

Linux 的默认调度程序最早符合资格的虚拟截止日期优先 (EEVDF)、实时调度程序和 NUMA 平衡都经过调整,使 AI 工作负载能够固定 CPU、隔离嘈杂的邻居并无抖动地馈送加速器。继续努力将默认内核计时器频率从 250 Hz 提高到 1000 Hz已经在大型语言模型(LLM)加速方面显示出可测量的提升,而电力成本可以忽略不计。 

另外: 我找到了 7 个适合学生的必备 Linux 应用程序 - 包括本地 AI

虽然不是 Linux 默认设置,但某些发行版,例如Ubuntu 低延迟内核,现在将此作为标准设置。

直接路径:消除CPU中间商

现代内核允许 GPU 使用 Nvidia 等技术直接访问内存、存储,甚至对等设备GPU直接和点对点 DMA。结合计算快速链路 (CXL并改进了输入/输出内存管理单元 (IOMMU) 处理,使加速器能够在移动数据时绕过 CPU。这消除了之前导致机器学习训练运行停滞的瓶颈。这种看不见的管道就是人工智能集群可以横向扩展而不会在自己的 I/O 下崩溃的原因。

另外: Linux 上我最喜欢的两个 AI 应用程序 - 以及我如何使用它们来完成更多工作

所有这些加起来就是,当高管们谈论“人工智能战略”时,他们并没有说的是一个乏味的现实:人工智能战略取决于大规模管理 Linux。这一切都是为了修补内核、强化容器和保护不透明的工作负载。人工智能可能会成为头条新闻,但 Linux 仍然是执行实际工作的操作系统。

关于《这个操作系统悄悄地为所有人工智能以及大多数未来的 IT 工作提供支持》的评论

暂无评论

发表评论

摘要

AI 只在 Linux 上运行,因为它的灵活性、强大功能和可扩展性能够满足现代 AI 的要求。Canonical 和 Red Hat 等主要发行版正在开发针对 Nvidia 的 Vera Rubin AI 超级计算机平台进行优化的 Linux 发行版。Linux 内核专为 AI 和 ML 工作负载量身定制,在内存管理、直接 GPU 访问和调度改进方面取得了进步。这种适应使得 Linux 对于所有人工智能平台至关重要,并增加了对 Linux 相关工作的需求,特别是那些涉及人工智能和机器学习操作的工作。