人工智能、机器学习、深度学习和生成式人工智能 — 清晰解释 |走向数据科学

机器学习和深度学习也经常被提及。

现在，生成式人工智能似乎主导了几乎所有的技术对话。

对于人工智能领域之外的许多专业人士来说，这个词汇可能会令人困惑。这些术语经常互换使用，有时混合在一起，有时作为竞争技术出现。

如果你曾经问过自己：

人工智能到底是什么？
机器学习和深度学习如何联系？
是什么让生成式人工智能与众不同？

这篇文章是为你而写的 ð

这里的目标是清晰度– 不是通过近似进行简化，而是用通俗易懂的语言进行准确的解释。本文的其余部分不需要任何技术背景。

核心理念：俄罗斯套娃

理解人工智能、机器学习、深度学习和生成式人工智能之间关系的一个有用方法是想象俄罗斯套娃。

每个概念都包含下一个概念：
没有什么可以取代之前的一切
每一层都建立在前一层之上。

让我们一一打开它们。

人工智能：外壳

人工智能（AI）是最广泛的定义。
从本质上讲，人工智能是指为执行通常需要人类智能的任务而设计的系统。在实践中，人工智能包括能够：

1. 做出决定。示例：导航系统根据实时交通状况选择最快路线。
2. 得出结论。示例：系统根据多种因素决定是否批准或拒绝贷款申请。
3. 识别模式。示例：通过识别异常消费行为来检测欺诈性信用卡交易。
4. 预测结果。示例：估计未来能源消耗或产品需求。

基于规则的人工智能：人类编写的智能

在人工智能的最初几十年，特别是在 20 世纪 70 年代和 20 世纪 80 年代，系统主要是基于规则的。我的意思是人类明确地写下了逻辑。计算机不会学习，而是执行预定义的指令。

-> 规则在人类自然语言中看起来像这样：– 如果一套房子至少有三间卧室，并且位于一个好的社区，那么它的价格应该在 500,000 欧元左右。 –
-> 用编程术语来说，逻辑是相似的，但是用代码编写，代码如下所示：如果卧室 — 3 AND 街区 =“好”，则价格 — 500000

这被认为是人工智能，因为人类推理完全由机器编码和执行。

为什么基于规则的人工智能受到限制

基于规则的系统只有在受控环境中才能正常工作。
现实世界的条件不受控制。如果我们仍然以房地产为例。

市场不断发展，
环境发生变化，
例外情况成倍增加。

除非人类重写规则，否则系统无法适应。
这个限制导致了下一层。

机器学习：让数据说话

机器学习（ML）是人工智能的一个子集。
关键的转变很简单但意义深远：

我们没有告诉计算机规则是什么，而是让系统直接从示例中学习规则。

-> 让我们回到房价的例子。我们不编写规则，而是收集数据：

表面积，
房间数量，
位置,
历史销售价格。

过去的例子有成千上万，有时甚至数百万。

该数据作为训练数据提供给机器学习模型。

但使用数据“训练模型”实际上意味着什么？

培训不是黑匣子。我们首先选择一个数学模型– 本质上是一个方程 – 可以描述投入（地表、位置等）和产出（价格）之间的关系。

我们不测试一个方程。我们测试了很多（我们称之为模型）。
一个非常简化的示例可能如下所示：
价格 = 2 × 面积 + 3 × 位置

该模型通过将许多示例中的价格与实际价格进行比较来调整其参数。

没有人能够同时手动分析数十万栋房屋。一台机器就可以。

我们如何知道模型有效？

在采用模型（即最能代表我们正在研究的现象的方程）之前，我们会对其进行评估。
部分数据被故意隐藏。这被称为测试数据。
型号：

训练期间从来没有看到过这些数据，
事后必须对其进行预测。
然后将预测与现实进行比较。

如果在未见过的数据上表现良好，则该模型很有用。
如果不是，则将其丢弃并尝试另一种模型。
这个评估步骤是必不可少的。

机器学习擅长完成人类难以完成的任务：

分析大量数据，
检测微妙的模式，
从过去的例子进行概括。
应用举例：

医疗保健
-> 疾病风险预测，
-> 医学图像分析。
工业
-> 预测设备故障，
-> 优化生产流程。
消费品
-> 推荐系统，
-> 欺诈检测。

传统机器学习的局限性

然而，传统的机器学习有很大的局限性。它可以很好地与结构化数据:

桌子，
数值，
明确定义的变量。

然而，它在处理人类自然处理的数据类型方面遇到了困难，例如：

图像，
音频、
文本。

这种限制的原因是根本性的 ->—计算机只理解数字—

计算机无法像人类那样理解图像、声音或文字。

他们只明白数字。

在处理图像、文本或音频时，这些数据必须首先转换为数字表示。

例如，将图像转换为数字矩阵，其中每个值对应于像素信息，例如颜色强度。只有经过这种转换，机器学习模型才能处理数据。

此转换步骤是强制性的。

特征提取：传统方法

在深度学习兴起之前，这种转变很大程度上依赖于手动特征工程。

工程师必须提前决定哪些特性可能有用：

图像的边缘或形状，
文本的关键字或词频，
音频的频谱分量。

这个过程，称为特征提取，是：

耗时，
脆弱,
强烈依赖于人类的直觉。

数据的微小变化通常需要从头开始重新设计功能。

为什么需要深度学习

复杂环境中手动特征提取的局限性是深度学习发展的关键动机。（我不会在本文中讨论更多的技术动机。我的目标是让您清楚地了解全局）。

深度学习并没有消除对数值数据的需求。
相反，它改变了特征是如何获得的。

深度学习模型不依赖于人类设计的手工特征直接从原始数据中学习有用的表示。

这标志着结构性转变。

深度学习：结构转变

深度学习仍然以机器学习的方式工作。学习过程是一样的：
-> 数据，
-> 培训，
-> 评价。

改变的就是我们所说的模型的架构。
深度学习依赖于多层神经网络。

层作为渐进表示

深度学习模型中的每一层对其输入应用数学变换，并将结果传递到下一层。

这些层可以理解为进步的表现的数据。

在图像识别的情况下：

早期层检测简单的图案，例如边缘和对比度，
中间层将这些图案组合成形状和纹理，
后面的层捕获更高级别的概念，例如面部、物体或动物。

该模型并不像人类那样“看”图像。
它学习数字表示的层次结构，从而使准确的预测成为可能。

该模型不是被明确告知要使用哪些特征，而是直接从数据中学习它们。

这种能力能够自动学习表示正是深度学习对复杂的非结构化数据有效的原因（参见上面的表示）。

一旦达到这种理解水平，重大转变就成为可能。

到目前为止，深度学习模型主要用于分析现有数据。

他们接受过以下培训：

识别图像中存在的内容，
理解文本的结构，
根据学习的模式对结果进行分类或预测。

简而言之，它们有助于回答这个问题：这是什么？

但学习丰富的数据表示自然会提出一个新问题：

如果模型已经了解了数据的结构，它是否也可以产生新数据遵循相同的结构？

这个问题是基础生成式人工智能。

生成式人工智能：从分析到创造

生成式人工智能不会取代深度学习。它直接构建在它之上。

学会识别模式的相同深度神经网络现在可以用不同的目标进行训练：一代。

生成模型不是只关注分类或预测，而是学习数据是如何存在的产生的，一步一步。

因此，他们能够创建连贯且现实的新内容。

一个具体的例子

考虑一下提示：

– 描述一下巴黎的一套豪华公寓。 –

该模型不会检索现有的描述。

相反：

从提示开始，
预测最有可能的下一个单词，
然后下一张，
并按顺序继续这个过程。

每个预测取决于：

已经生成的内容，
原来的提示，
这些模式是从大量数据中学习到的。

最终的文本是新的——以前从未存在过——但感觉很自然，因为它遵循与训练期间看到的类似文本相同的结构。

不同数据类型的原理相同

该机制不限于文本。同样的生成原理适用于：

图像，通过生成像素值，
音频，通过随着时间的推移产生声音信号，
视频，通过生成图像序列，
代码，通过生成语法和逻辑一致的程序。

这就是为什么这些模型通常被称为基础模型：单个经过训练的模型可以适应许多不同的任务。

为什么今天的生成式人工智能给人以不同的感觉

人工智能、机器学习和深度学习已经存在很多年了。

让生成式人工智能感觉像是一个转折点的不仅是性能的提高，而且人类如何与人工智能互动。

过去，使用先进的人工智能需要：

技术接口，
编程知识，
基础设施和模型管理。

如今，互动主要通过以下方式发生：

自然语言，
简单的说明，
谈话。

用户不再需要指定如何做某事。
他们可以简单地描述他们想要什么。

这种转变极大地降低了进入门槛，并使人工智能能够直接集成到各个行业的日常工作流程中。

将所有内容放在一起

这些概念不是竞争技术。它们形成了一个连贯的进程：

人工智能定义了目标：智能系统。
机器学习使系统能够从数据中学习。
深度学习允许从复杂的、非结构化的信息中学习。
生成式人工智能利用这种理解来创建新内容。

从这个角度来看，生成式人工智能并不是突然与过去决裂。
这是之前一切的自然延续。

一旦这种结构清晰，人工智能术语就不再令人困惑，并成为一个连贯的故事。

但是，我们结束了吗？几乎。

*图 6 — 2025 年完整的人工智能生态系统（作者使用*Excalidraw*）*

至此，我们已经介绍了核心人工智能生态系统：人工智能、机器学习、深度学习和生成式人工智能，以及它们如何自然地相互构建。

如果您正在阅读本文，那么您很可能已经在日常生活中使用了 ChatGPT 等工具。我不会在这里深入探讨，这值得单独写一篇文章。

然而，有一个重要的最终想法值得记住。

早些时候，我们说过生成式人工智能是深度学习的延续，专门研究模式，足以生成遵循相同模式的新数据。

确实如此，但当涉及到语言，所涉及的模式要复杂得多。

人类语言不仅仅是单词序列。它由语法、句法、语义、上下文和远程依赖关系构成。捕捉这些关系需要深度学习架构的重大发展。

从深度学习到大型语言模型

为了处理这种复杂程度的语言，出现了新的深度学习架构。这些模型被称为大型语言模型 (LLM)。

法学硕士不是试图一次性理解句子的全部含义，而是以一种非常特殊的方式学习语言：

他们学会考虑到下一个单词（或标记）之前的所有内容，预测下一个单词（或标记）。

这听起来可能很简单，但是当对大量文本进行训练时，这个目标会迫使模型内化：

语法规则，
句子结构，
写作风格，
事实，
甚至推理的要素。

通过重复这个过程数十亿次，模型学习了语言如何工作的隐式表示。

从这些大型语言模型中，对话系统，例如聊天GPT是建立起来的——将语言生成与指令遵循、对话和对齐技术相结合。

上图直观地展示了这个想法：生成发生一次一个词，每个步骤都以之前生成的内容为条件。

最后的大图

你今天所看到的一切都不是凭空而来的。

ChatGPT 不是一项单独的技术。这是长期进展的明显结果：

人工智能设定了目标。
机器学习使从数据中学习成为可能。
深度学习可以从复杂的非结构化数据中进行学习。
生成式人工智能使创造成为可能。
大型语言模型将语言带入了这个框架。

我希望这篇文章对您有所帮助。现在，您不再迷失在技术对话中 - 即使在年终家庭聚会上也是如此

如果您喜欢这篇文章，请随时在 LinkedIn 上关注我，了解有关人工智能、数据科学和职业的更诚实的见解。

噗噗噗 领英：� 萨布琳·本迪梅拉德
噗噗噗 介质：� https://medium.com/@sabrine.bendimerad1

OC