什么是人工智能？探索生成式AI技术栈

2024-10-11 01:22:39 英文原文

作者：Charles Ide

你听说过OpenAI和Nvidia，但你知道还有哪些公司在参与人工智能浪潮以及它们是如何相互关联的吗？

作者供图

几个月前，我去了纽约的MoMA参观，看到了工作AI系统的解剖学凯特·克劳福德和弗拉丹·乔勒著这项工作考察了亚马逊Alexa供应链，从原材料提取到设备废弃的全过程。这让我思考今天由生成式人工智能（GenAI）驱动的应用程序生产的方方面面。通过深入探讨这个问题，我了解到构建这些GenAI应用程序所依赖的各种物理和数字工程层面。

我写这篇文章是为了向读者介绍生成式人工智能（GenAI）价值链的主要组成部分，每个部分的作用以及各个阶段的重要参与者。在此过程中，我希望阐明推动人工智能发展的各种业务的范围、不同的技术如何相互建立和支撑，以及存在的脆弱性和瓶颈在哪里。我们将从科技巨头如谷歌以及最新的创业公司所推出的应用程序开始，然后沿着价值链向下追溯到构成计算机芯片的沙子和稀土金属。

从像Palantir这样的规模化创业公司到像苹果这样的科技巨头，再到像高盛这样的非科技公司，每个人都正在开发人工智能解决方案。作者供图。

科技巨头、企业IT部门以及众多新兴创业公司正处在探索生成式AI（GenAI）潜在应用场景的初期阶段。这些应用可能是计算机应用程序新时代的开端，标志着人类与计算机交互方式的根本性变革，并具备前所未有的能力来理解和利用非结构化且之前未被发掘的数据源（例如音频）。

计算领域中许多最具影响力的进展都来自于人机交互（HCI）的进步。从图形用户界面的开发到鼠标再到触摸屏，这些进步大大增强了用户使用计算工具的能力。GenAI模型将进一步消除这一接口中的摩擦，通过赋予计算机人类语言的力量和灵活性。用户将能够像对一个可靠的个人助手一样向计算机发出指令和任务。在HCI领域创新的一些产品示例包括：

Siri(AI语音助手) —增强苹果移动助理的功能，使其能够理解更广泛的需求和问题。
Palantir的数据集成平台（Data Integration Platform）（自主代理）——通过聊天界面简化大型强大工具的复杂性，引导用户实现所需功能和操作。
Lilac实验室（客户服务中心自动化）语音AI自动处理 Drive-Thru 客户点餐

GenAI 为计算机系统赋予了以前通过预编程程序集无法实现的自主性和灵活性，这些系统的功能由程序员设定的一系列固定规程指导，并且其数据输入需要符合严格定义的规则。这种灵活性使得应用程序能够执行更复杂和开放的知识任务，而这些任务之前一直被认为是人类独有的领域。利用这种灵活性的一些新应用示例包括：

GitHub Copilot(Coding Assistant) — 代码助手 —通过根据用户的意图和现有的代码库实现代码来增强程序员的生产力。
LenAI（知识助手） —通过总结会议、从讨论中提取关键洞察并起草沟通文件来节省知识工作者的时间
困惑度(AI搜索) —可靠地引用来源回答用户问题，通过将传统的互联网搜索与人工智能生成的网络资源摘要相结合。

一个多样化的玩家群体正在推动这些用例的发展。大批初创公司如雨后春笋般涌现，其中有86家Y Combinator的W24批次公司专注于人工智能技术像谷歌这样的大型科技公司也推出了生成式人工智能产品和功能。例如，谷歌正在利用其Gemini大语言模型在其核心搜索产品中进行结果摘要。传统企业也在启动重大举措，以了解生成式人工智能如何补充他们的战略和运营。摩根大通首席执行官杰米·戴蒙表示人工智能在市场营销、风险管理和欺诈检测方面“令人难以置信”。它将帮助你更好地完成工作。随着公司了解如何利用人工智能解决问题并创造价值，生成式人工智能的应用场景和需求将会增加。

变压器AI架构的示意图。图片由Sing等作者根据Creative Commons 4.0许可使用。

随着OpenAI的ChatGPT（基于GPT-3.5模型）在2022年底发布，生成式人工智能（GenAI）爆炸般地进入公众意识如今，像Anthropic的Claude、Google的Gemini和Meta的Llama这样的模型对GPT的地位发起了挑战。模型提供商市场和发展格局仍处于初期阶段，许多问题仍未解决，例如：

更小的领域/任务特定模型会普及，还是大型模型将处理所有任务？
当前的转换器架构下，模型的复杂度和能力能提升到什么程度？
当模型训练接近所有人类创建的文本数据的极限时，能力将如何发展？
哪些玩家将挑战OpenAI的主导地位？

虽然推测人工智能力量的限制超出了本次讨论的范围，但生成式人工智能模型的市场很可能非常大。许多知名投资者肯定非常重视它模型构建者如何证明如此高的估值和巨大的兴奋感是合理的？

像OpenAI这样的公司的研究团队负责做出架构选择，编译和预处理训练数据集，管理训练基础设施等。这一领域的研究科学家非常稀少且备受重视；随着OpenAI的一名平均工程师年薪超过90万美元很少有公司能够吸引并留住具备这种高度专业化技能的人才。

编译训练数据集涉及从互联网和其他来源（例如数字化图书馆）抓取、整理和处理所有文本（或音频或视觉）数据。在整理这些原始数据集之后，工程师会添加相关元数据（例如标记类别），将数据切分成块以供模型处理，并将其格式化为高效的训练文件格式，同时还会实施质量控制措施。

虽然基于AI模型的产品和服务市场的市场需求可能在十年内价值数万亿美元，许多门槛阻碍了除了资源最丰富的公司之外的所有公司构建前沿模型。最高的进入壁垒是进行模型训练所需的数百万到数十亿美元的资金投入。为了训练最新的模型，公司必须要么建造自己的数据中心，要么从云服务提供商那里购买大量设备以利用其数据中心。尽管摩尔定律继续迅速降低计算能力的成本，但这被模型规模和计算需求的快速扩大所抵消。训练最新前沿模型需要数十亿美元的数据中心投资（据2024年3月的媒体报道描述为）OpenAI和微软投资的1000亿美元在数据中心训练下一代模型）。很少有公司能够负担数十亿美元用于训练一个AI模型（只有像科技巨头或资金极其充足的初创公司如Anthropic这样的企业可以做到）。安全的超级智能).

找到合适的人才也非常困难。吸引这种专业化人才不仅需要提供七位数的薪酬包，还需要与相关领域和学术社区建立联系，并提出有吸引力的价值主张和技术未来愿景。现有玩家拥有强大的资金支持并主导了专业人才市场，这将使得新进入者难以挑战他们的地位。

了解一些人工智能模型市场的历史有助于我们理解当前的市场格局以及它可能如何演变。当ChatGPT出现时，许多人觉得这是一场突破性的革命，但真的是这样吗？还是说这只是在一系列长期发展过程中的又一个渐进（尽管令人印象深刻）的进步，在开发世界之外几乎不为人知？开发ChatGPT的团队基于几十年来的研究成果和来自行业、学术界以及开源社区公开可用的工具。其中最值得注意的是转换器架构本身——这一关键见解不仅推动了ChatGPT的发展，还推动了过去五年中大多数人工智能的重大突破。该架构最初由谷歌在2017年的一篇论文中提出注意力就是你所需要的变压器架构是像Stable Diffusion、GPT-4和Midjourney这样的模型的基础。那篇2017年论文的作者创立了一些最著名的AI初创公司。（例如，CharacterAI，Cohere）

鉴于常见的变压器架构，是什么因素使得某些模型能够“胜出”于其他模型？变量如模型大小、输入数据的质量和数量以及专有研究区分了不同的模型。模型规模与性能的提升呈正相关，并且资金最充足的玩家可以通过更多地投资于模型训练来进一步扩大其模型规模从而实现差异化。拥有专有数据源（例如Meta从其用户群体获得的数据，或Elon Musk的xAI从特斯拉驾驶视频中获得的数据）可以帮助某些模型学习其他模型无法访问的内容。通用人工智能仍然是一个高度活跃且持续进行的研究领域——拥有最优秀人才的公司在研究上的突破将部分决定该领域的进步速度。同时尚不清楚策略和应用场景如何为不同的参与者创造机会。也许应用程序构建者可以通过利用多个模型来降低依赖风险，或将特定模型的独特优势与具体的应用场景（例如研究、人际沟通）相匹配。

云基础设施市场份额。图片由统计学采用创用共享许可证。

我们讨论了模型提供商如何投资数十亿来构建或租赁计算资源以训练这些模型。这笔支出去了哪里？其中很大一部分流向了云服务提供商，比如微软的Azure（OpenAI用于GPT）和亚马逊网络服务（Anthropic用于Claude）。

云服务提供商（CSP）在生成式AI的价值链中扮演着关键角色，通过提供必要的基础设施来训练模型（他们还经常为最终应用程序构建者提供基础设施，但本节将重点关注与模型构建者的互动）。主要的模型构建者通常不拥有和运营自己的计算设施（即数据中心）。相反，他们从超大规模云服务提供商（如AWS、Azure和Google Cloud）以及其他提供商那里租用大量的计算能力。

云服务提供商生成计算能力资源（通过向专门的微芯片供电来制造，数千个这样的微芯片组成一个数据中心）。为了训练他们的模型，工程师们会提供指令给云服务提供商操作的计算机，在输入数据集上进行昂贵的矩阵运算以计算数十亿个模型权重参数。这个模型训练阶段负责前期投资的高昂成本。一旦这些权重被计算出来（即模型被训练完毕），模型供应商使用这些参数来响应用户的查询（即在新的数据集上进行预测）。这是一个相对计算资源消耗较少的过程，被称为推理过程，同样需要使用云服务提供商的计算能力。

云服务提供商的角色是建立、维护和管理数据中心，在这些地方产生和使用“计算能力”资源，供模型构建者使用。CSP的活动包括从供应商（如Nvidia）获取计算机芯片，在专用设施中安装服务器单元，并进行定期的物理和数字维护。他们还开发整个软件堆栈来管理这些服务器，并为开发者提供一个接口以访问计算能力和部署他们的应用程序。

数据中心的主要运营开支是电力，由人工智能驱动的数据中心扩张很可能会在未来几十年内导致用电量大幅增加。为了提供一个参考，对ChatGPT的标准查询所消耗的能量是一次平均谷歌搜索的十倍。高盛估计，人工智能的需求将使数据中心在全球电力消耗中的份额翻倍到本十年末。为了支持人工智能，必须在计算基础设施上进行重大投资，类似地，也必须为此类计算基础设施提供动力而进行相应的投资。

展望未来，云服务提供商及其模型构建合作伙伴正在竞相建造规模最大、最强大的数据中心，以训练下一代模型。未来的数据中心，如微软和OpenAI合作开发的数据中心，将需要数千到数百万颗最先进的微芯片。为了建立这些设施，云服务提供商进行了巨额资本支出，这现在推动了帮助制造这些微芯片的公司的创纪录利润，特别是英伟达（设计）和台积电（制造）。

图片由劳拉·奥克尔在Unsplash上的照片

到目前为止，每个人很可能都听说过NVIDIA及其因人工智能驱动的股市飙升而闻名。说科技巨头们正处于一场军备竞赛中，并且NVIDIA是唯一的供应商已经成为一种陈词滥调，但这是否属实？目前来看确实如此。NVIDIA设计了一种形式的计算机微芯片被称为用于人工智能模型训练的关键图形处理单元（GPU）。什么是GPU，为什么它对生成式AI如此关键？为什么大多数关于AI芯片设计的讨论都围绕着Nvidia展开，而不是像Intel、AMD或Qualcomm这样的其他微芯片设计师？

图形处理单元（从名称可以看出）最初用于服务计算机图形市场。《侏罗纪公园》等 CGI 电影和《DOOM》等视频游戏所需的图形需要昂贵的矩阵计算，但这些计算可以并行进行而不是顺序进行。标准计算机处理器（CPU）优化了快速顺序计算（其中一个步骤的输入可能是前一个步骤的输出），但它们无法同时执行大量的计算。这种针对“横向”扩展并行计算而非加速顺序计算的优化非常适合计算机图形，并且后来也非常适合 AI 训练。

在视频游戏于上世纪90年代兴起之前，GPU一直服务于一个小众市场。它们是如何崛起并主导AI硬件市场的？GPU制造商又是如何取代硅谷原有的巨头如英特尔的？到了2012年，一项计划开始了……AlexNet赢得了ImageNet机器学习竞赛，他们使用Nvidia GPU加速模型训练。他们展示了GPU的并行计算能力非常适合训练ML模型，因为像计算机图形一样，ML模型训练依赖于高度并行的矩阵运算。如今的大型语言模型（LLM）在AlexNet最初突破的基础上发展，扩展到了数千万亿次的算术运算和数十亿个模型参数。自AlexNet以来，并行计算需求激增，由于前期的巨额投资和巧妙的锁定策略，Nvidia已成为机器学习和AI模型训练唯一潜在芯片供应商。

鉴于GPU设计领域巨大的市场机遇，合理地问为什么Nvidia没有显著的竞争对手（撰写本文时，） Nvidia拥有70-95%的人工智能芯片市场份额)在ChatGPT和AlexNet出现之前，Nvidia在机器学习和人工智能市场的早期投资是其在芯片制造商如AMD等竞争对手中建立显著领先地位的关键。在商业应用尚不明确的情况下，Nvidia就已在科学研究计算（后来发展为机器学习和人工智能）市场领域投入了大量研发资金。正因为这些早期的投资，当人工智能市场兴起时，Nvidia已经建立了最好的供应商和客户关系、工程人才和技术（特别是GPU技术）。

也许英伟达最显著的早期投资，现在也是它与竞争对手之间最大竞争优势的是它的CUDA编程平台CUDA 是一个低级软件工具，使工程师能够与 Nvidia 的芯片进行接口并编写并行原生算法。许多模型，如 LlaMa，则利用在此基础上构建的更高层次的 Python 库。这些较低级别的工具使模型设计者能够在不担心在 GPU 处理器核心级别执行计算的复杂性的情况下专注于更高级别的架构设计选择。借助 CUDA，Nvidia 构建了一个软件解决方案，通过解决 AI 建设者面临的许多软件挑战来战略性地补充其硬件 GPU 产品。

CUDA不仅简化了在Nvidia芯片上构建并行AI和机器学习模型的过程，还把开发人员锁定在Nvidia系统上，为任何希望转向Nvidia竞争对手的公司设置了重大退出障碍。用CUDA编写的应用程序无法在竞争对手的芯片上运行，这意味着要从Nvidia芯片切换出去，公司不仅需要重建CUDA平台的功能，还需要重构其技术栈中依赖于CUDA输出的部分。鉴于过去十年建立在CUDA之上的庞大AI软件堆栈，转向竞争对手芯片的成本是相当大的。

图片由Louis Reed on Unsplash

像Nvidia和AMD这样的公司设计芯片，但它们并不制造这些芯片。相反，他们依赖于被称为晶圆厂的半导体制造专家进行生产。现代半导体制造是迄今为止发明的最复杂的工程过程之一，而这些晶圆厂与传统工厂的形象相去甚远。举例来说，最新芯片上的晶体管长度仅有12个硅原子，比可见光的波长还要短。现代微芯片将数万亿这样的晶体管密集地封装在小小的硅片上，并蚀刻成原子级别的集成电路。

制造半导体的关键是一个称为“工艺”的过程known as光刻技术光刻工艺涉及在硅晶圆上蚀刻复杂的图案，硅晶圆是由元素硅结晶化而成的微芯片基底。该过程包括用一种称为光致抗蚀剂的感光化学物质覆盖晶圆，然后通过包含所需电路图案的掩模将其暴露于紫外线中。接着开发曝光区域的光致抗蚀剂，留下可以在晶圆上蚀刻的图案。这一过程中最关键的机器由荷兰公司ASML开发并生产。极紫外(EUV)光刻系统并且在其所在的人工智能价值链部分也保持着类似对英伟达的垄断地位。

就像Nvidia在GPU设计市场占据主导地位一样，其主要制造合作伙伴台湾半导体制造公司（TSMC）也占据了最先进的AI芯片制造市场的类似巨大份额。要理解TSMC在其半导体制造版图中的位置，了解更广泛的晶圆厂格局是有帮助的。

半导体制造商主要分为两种晶圆厂模式：纯代工和集成。纯代工厂，例如台积电（TSMC）和格罗方德（GlobalFoundries），专注于为其他公司制造微芯片而不设计自己的芯片（这是无晶圆厂公司的补充，如英伟达和AMD，这些公司设计但不制造自己的芯片）。这些代工工厂专门提供制造服务，使无晶圆厂半导体公司能够在无需大量资金投入制造设施的情况下设计微芯片。相比之下，英特尔和三星等集成设备制造商（IDM）则负责设计、制造并销售他们的芯片。集成模式提供了对整个生产过程的更大控制权，但需要在设计和制造能力上进行大量的投资。由于纯代工模式为无晶圆厂设计公司提供了灵活性和资本效率，因此这种模式在过去几十年里越来越受欢迎；而集成模式仍然适合那些拥有维护设计和制造专业知识资源的公司。

在讨论半导体制造时，无法忽略台湾的重要作用及其随之而来的地缘政治风险。在20世纪后期，台湾从一个低利润率、劳动力技能较低的制造业岛屿转变为半导体领域的强国，这主要得益于政府的战略性投资以及对高科技产业的关注。台积电（TSMC）的建立和成长是这一转变的核心，使得台湾在全球技术供应链中占据了关键地位，并促使了许多小型公司的涌现以支持制造需求。然而，这种主导地位也使台湾成为了当前地缘政治斗争中的一个关键焦点，因为中国视该岛为其分裂省份并寻求更大的控制权。任何紧张局势的升级都可能扰乱全球半导体供应，对全球经济产生深远的影响，尤其是在人工智能领域。

图片由 Getty Images on Unsplash

最基本的层面，所有制造出来的物体都是从地球中提取的原材料制成的。用于训练AI模型的微芯片主要由硅和金属构成。这些材料以及光刻工艺中使用的化学物质是晶圆厂生产半导体的主要原料。尽管美国及其盟友在价值链的许多部分占据了主导地位，但其人工智能竞争对手中国则对原材料金属和其他投入资源掌握得更为牢固。

任何微芯片的主要成分是硅（这也是硅谷得名的原因）。硅是地壳中最丰富的矿物之一，通常以二氧化硅的形式开采（即石英或硅砂）。生产硅晶圆的过程包括开采矿物石英岩、将其粉碎，然后提取和纯化元素硅。接下来，像Sumco和Shin-Etsu Chemical这样的化工公司使用Czochralski生长工艺将高纯度的硅转化为晶圆，在该过程中，种子晶体被浸入熔融的高纯度硅中，并在旋转的同时缓慢向上拉出。这一过程生成一个大块的单晶硅锭，然后将其切成薄片形成半导体制造的基底。

超越硅元素，计算机芯片还需要少量的稀土金属。半导体制造中的一个关键步骤是 doping（ dopant，在半导体中指掺杂剂），在其中向硅中加入杂质以控制导电性。掺杂通常使用稀土金属如锗、砷、镓和铜等进行。中国主导全球稀土金属生产，占矿业的超过60%和加工的85%其他重要的稀土金属生产国包括澳大利亚、美国、缅甸和刚果民主共和国。美国对中国稀土金属的严重依赖带来了重大的地缘政治风险，因为供应中断可能严重影响半导体行业和其他高科技部门。这种依赖性促使美国及其他国家努力多元化供应链并开发国内稀土生产能力，尽管由于环境问题以及稀土加工的复杂性，进展缓慢。

支持人工智能开发的物理和数字技术堆栈及价值链复杂且建立在几十年来的学术和工业进步之上。价值链涵盖了终端应用构建者、AI模型构建者、云服务提供商、芯片设计师、芯片制造厂商以及原材料供应商等众多关键参与者。尽管许多关注点集中在像OpenAI、Nvidia和TSMC这样的大型企业上，但价值链的各个节点都存在着重要机遇与瓶颈。成千上万的新公司将应运而生来解决这些问题。虽然像Nvidia和OpenAI这样的公司可能是它们时代的Intel和Google，但在个人计算和互联网繁荣时期也产生了数千家独角兽企业以填补特定市场并解决新经济带来的问题。由转向人工智能所带来的机会将需要几十年的时间才能被理解和实现，正如在20世纪70年代和80年代的个人计算机以及90年代和本世纪初的互联网那样。

虽然创业和巧妙的工程可能解决人工智能市场上的许多问题，但有些问题涉及更大的力量。没有什么挑战比与拥有（或声称拥有）大多数原材料和制造业市场的中国的地缘政治紧张关系更大了。这与美国及其盟友形成了对比，后者控制着价值链中的大部分下游环节，包括芯片设计和模型训练。争夺人工智能主导地位的斗争尤其重要，因为人工智能所开启的机会不仅仅是经济上的，也是军事上的。半自主武器系统和利用人工智能能力进行网络战可能在未来几十年的冲突中发挥决定性作用。现代国防技术初创公司如Palantir和安杜伊利尔已经展示了人工智能能力如何能够扩大战场视野并加速决策循环，从而获得可能的决定性优势。鉴于人工智能对全球秩序的巨大破坏潜力以及美国和中国之间微妙的力量平衡，两国必须寻求维持一种旨在共同促进人工智能技术发展的合作关系，以增进全球繁荣。只有通过解决供应链各个环节的问题，从科学到工业再到地缘政治，才能实现人工智能增强人类能力的承诺。

关于《什么是人工智能？探索生成式AI技术栈》的评论

暂无评论

发表评论

摘要

你听说过OpenAI和Nvidia，但你知道还有谁参与了人工智能浪潮以及他们是如何相互关联的吗？（插图由作者提供）几个月前，我参观了纽约市的大都会现代艺术博物馆，并看到了Kate Crawford和Vladan Joler的作品《人工智能系统的解剖》。云服务提供商为了构建这些设施而进行的巨大资本支出现在正推动那些帮助制造微芯片公司的创纪录利润，特别是Nvidia（设计）和台积电（制造）。（插图由Laura Ockel在Unsplash上提供）到目前为止，每个人可能都听说过Nvidia及其因人工智能驱动的股市飙升。任何紧张局势的升级都可能会扰乱全球半导体供应，并对全球经济产生深远影响，特别是在人工智能领域。（插图由Unsplash上的Getty Images提供）最基本的是，所有制造出来的物体都是从地球中提取的原材料制成的。接下来，像Sumco和Shin-Etsu Chemical这样的化工公司将纯硅转化为晶圆，使用一种称为Czochralski生长的过程，在这个过程中，一个种子晶体被浸入熔化的高纯度硅中，并在旋转的同时缓慢向上拉出。成千上万的新公司将会诞生来解决这些问题。

什么是人工智能？探索生成式AI技术栈

你听说过OpenAI和Nvidia，但你知道还有哪些公司在参与人工智能浪潮以及它们是如何相互关联的吗？

关于《什么是人工智能？探索生成式AI技术栈》的评论

发表评论

摘要

相关新闻

相关讨论