自 20 世纪 50 年代机器学习 (ML) 兴起以来人工智能已经从一个抽象的想法转变为影响日常生活的工具。它的起源在于机器学习和神经网络的基本构建模块,并逐渐演变成我们今天看到的复杂、互连的系统。这种演变并不是一夜之间发生的,而是一夜之间发生的。它是数十年研究、实验和计算突破的成果。以下是人工智能如何从预测跳棋游戏发展成为能够在几秒钟内进行复杂推理、诊断疾病和预测未来事件的极其复杂的互通系统的过程。
机器学习的历史比视频游戏、电子邮件甚至个人电脑还要悠久。这个概念可以追溯到 20 世纪 50 年代,当时研究人员首次尝试创建可以从简单数据收集中“学习”的程序。一位早期的先驱者阿瑟·塞缪尔(Arthur Samuel)构建了一个可以自学下跳棋的程序——这是机器学习的一个基本例子。核心原则很简单:向系统提供足够的数据,它将开始识别模式并做出预测。
研究人员向这些模型提供了更多数据,并训练它们使用算法进行情境化——本质上是旨在找到有意义的见解的数学指令。这些模型的建立是为了更好地预测结果,分析的数据越多。最早的例子范围有限;线性回归和决策树算法仅仅是开始。虽然人工智能关键功能的核心原理保持不变,但机器学习模型在处理大量日益复杂的数据方面变得更加强大、准确和更快。
20 世纪 40 年代,神经生理学家 Warren McCulloch 和数学家 Walter Pitts 提出了一种基于神经元、树突和突触之间的信号和连接的大脑功能模型。他们的最终目标是开发一种模仿人类神经元如何处理信息的人工系统。后来,这个模型成为我们现在所说的神经网络的基础。神经网络汲取了这一灵感,以类似的方式对计算机信号和连接进行建模,成为改变人工智能的基础性突破。
与人脑一样,神经网络由互连的节点层组成,这些节点通过网络处理和传输信息。这些节点协同工作来识别数据模式,通过反复接触示例逐渐提高其准确性。20 世纪 80 年代,反向传播的概念(一种提高这些网络准确性的算法方法)使它们重新成为人们关注的焦点。顾名思义,该过程向后工作(从结果到初始输入)以识别错误并最大限度地减少未来的错误。与反思或回顾时刻如何帮助人类做出更明智的决策类似,反向传播的结合为神经网络今天能够进行的推理奠定了基础,例如筛选图像以识别对象并以令人难以置信的准确性分析语音模式。
随着人工智能认知的核心部分逐渐形成,研究人员已经开始探索机器是否能够理解人类语言。语言是混乱的,充满歧义、习语和变化的含义。自然语言处理 (NLP) 的早期尝试依赖于简单的规则:例如,严格的 if-then 语句仅将一种输入编码为一种输出。这种最初的预编程方法只能对特定提示产生文本响应,这通常会导致僵硬的、基于规则的交流,无法捕捉人类语言的多样性。最终,与现代机器学习模型相比,这限制了其可扩展性。
接下来是统计自然语言处理,它本质上是教会机器自动分解文本或语音。在机器学习的支持下,统计 NLP 根据在大量数据中观察到的模式来预测文本最可能的含义。这种训练方法不再遵循预先编程的规则,而是使机器能够掌握名词、动词和形容词等语言元素。它将单词和语法转换为数字,并使用数学来处理语言。拼写检查器和 T9 短信等早期工具是使用统计 NLP 构建的。
当研究人员采取新方法时,突破出现了,他们抛开传统的语言理论,转而让深度学习模型直接从大量原始文本数据中发现模式。研究人员通过这些神经网络运行原始文本和音频,随着时间的推移,这些模型能够识别语言中的细微差别模式,而无需阐明每条规则。如今,NLP 系统可以翻译语言、生成类似人类的文本,甚至可以进行对话。但这不仅仅是与数字助理进行更亲密的聊天。NLP 现在是人工智能处理和解释书面文字的核心,从筛选法律文件到通过分析病历中的关键信息来协助医生。
NLP 专注于语言,而计算机视觉则帮助 AI 以视觉方式解释世界。早在 20 世纪 60 年代,研究人员就播下了这项技术的种子,当时麻省理工学院的研究人员试图使用计算机来识别图像中的物体。直到 2000 年代,随着神经网络的进步,计算机视觉才真正起飞。
计算机视觉模型可以通过分析图像像素来识别物体、人,甚至复杂的场景。从面部识别到自动导航系统的计算机视觉系统现在都使用这项技术。早期计算机视觉系统与当今模型之间的一个关键区别是它们处理大量视觉数据并从中学习的能力。早期的系统是劳动密集型的,仅限于边缘检测(即通过检测图像中的高对比度过渡来识别基本形状)和文本字符识别等基本任务。如今,人工智能可以像人类一样“看到”很多东西,实时解释复杂的视觉环境,例如繁忙的十字路口、拥挤的人群和友好的面孔。
随着人工智能的不断发展,研究人员遇到了瓶颈:如何有效地处理语言或时间序列信息等序列数据。标准神经网络并不是为了处理按顺序出现的数据(例如对话或故事)而构建的。研究人员需要一个与人脑类似的系统,能够记住之前所说的内容,从而理解接下来发生的事情。循环神经网络 (RNN) 是首选解决方案,因为它们在网络中创建循环,以保留重要信息以供以后使用。但即使是 RNN 也需要长序列的帮助,并且训练时间也太长。进入 Transformer:谷歌研究人员团队于 2017 年推出的革命性架构。
与 RNN 不同,Transformer 不会逐步处理数据。相反,他们使用一种称为“注意力”的机制来帮助模型同时突出显示输入数据中最相关的部分。与人类如何将对话的关键部分归零类似,这种聚焦能力使 Transformer 更快、更高效,能够处理更长的文本或数据序列,而不会丢失上下文。突然间,人工智能系统可以一次性处理整个文本段落或文档页面,从而在语言翻译和文本生成等领域取得巨大进步。
Transformer 已迅速成为现代人工智能模型的支柱,使从实时语言翻译到对话式人工智能的一切成为可能。但它们并不限于文本。变形金刚还在药物发现、基因研究和其他帮助分析复杂生物数据的领域掀起了波澜。
有没有想过您最喜欢的流媒体服务如何预测您接下来想观看的内容?或者网上商店如何推荐适合您风格的产品?进入推荐系统。首次出现于 20 世纪 90 年代,如今的推荐引擎已发展成为熟练的策展人,帮助用户通过学习过去的行为来筛选大量信息。
推荐系统通常依赖两种标准方法:协同过滤和基于内容的过滤。前者根据系统用户的行为提出建议,而后者则侧重于内容的具体细节以查找相似性和链接。随着时间的推移,这些系统变得更加准确,结合这两种方法来提供高度个性化的推荐。推荐系统现在被用来提供从电视节目到医疗保健治疗计划的一切建议。
扩散模型代表了人工智能图像生成领域最新的重要发展。这些先进的算法由 Jascha Sohl-Dickstein 领导的斯坦福大学研究团队于 2015 年首次推出,通过迭代地细化各个像素以匹配模型学到的最适合描述的内容,从文本生成图像。想象一下,从充满静电的画布开始,看着一幅图画慢慢浮现。这就是扩散模型的运作方式;它们根据从初始随机状态学习到的结构生成图像、音频或文本。
虽然仍处于早期阶段,但扩散模型已经在创意领域得到应用。艺术家和设计师使用它们来创建图像或音频,而研究人员则探索它们在从科学模拟到虚拟世界的各个方面的潜力。扩散模型还可以产生新的训练数据,为模型开发和调整提供更多选择。
随着人工智能的不断发展,正在进行的研究的一个关键领域是使这些系统更加透明和易于理解。例如,可解释人工智能研究领域旨在阐明人工智能如何做出决策,这对于医疗保健、金融和其他行业至关重要,在这些行业中,了解建议背后的原因与结果同样重要。
随着人工智能变得越来越复杂,它的潜力也越来越大。机器学习、神经网络和自然语言处理曾经独立的分支现在交织在一起,创建了以模仿人类智能的方式学习、感知和预测的系统。从早期的基于规则的系统到今天的变压器和扩散模型,旅程还远未结束。未来的进步将继续推动思考机器以及创造它们的人们的发展。