2024-09-30 16:19:00 · 英文原文

人工智能术语表 - Law.com

人工智能术语表

讨论人工智能时需要了解和理解的关键术语指南。

2024 年 9 月 30 日中午 12:19

15 分钟阅读

人工智能

人工智能正在主导所有行业的对话，包括法律行业。为了帮助法律专业人士驾驭这个快速发展的领域，我们在下面定义了许多与人工智能相关的关键术语和概念。随着新发展的出现，该术语表将不断更新。

代理人工智能：一种新技术，也称为自主人工智能，代理的目标是比传统人工智能更加自主。模型可以在较少的监督下做出决策，从交互中学习并采取主动步骤。

代理：依赖大型语言模型通过参与和记住交互、建立关系、规划协调事件来模拟自主人类行为的计算机程序，并参与其他可信的个人和群体行为模拟。

AI 绘图：使用 AI 分析、解释和可视化数据以创建地图的过程。

AI 清洗：绿色清洗的最新后继者指出，一些公司使用绿色营销材料来说服消费者，他们的做法比实际情况更环保。人工智能清洗是指企业向公众做出毫无根据的人工智能宣称，过度夸大其人工智能的用途或能力。智能。

算法：在人工智能中，一组指令或编程，告诉计算机该做什么，以便让机器学会自行操作以解决特定问题或执行特定任务.

通用人工智能（AGI）：人工智能的一种理论形式，可以理解、学习、应用知识和执行任务，并且比人类更好。目前，我们距离通用人工智能 (AGI) 的实现还很遥远。

人工智能 (AI)：计算机科学的分支，专注于能够模仿人类智能和思维的计算机系统的理论、开发和设计或执行通常需要人类智能的任务。

反向传播：“错误的反向传播”的缩写，是一种通过纠正错误在训练过程中向人工智能提供反馈的系统。它是一种数学工具，计算输出和输入以测量损失函数，然后更新权重，直到系统最小化错误。

黑匣子：一种人工智能系统，其决策和其他内部运作可能是对人类来说是不透明的。

灾难性遗忘：当人工智能模型接触到如此多的新数据时，它会剥夺自己以前学到的知识。

聊天机器人：一种“对话”的计算机程序”及其用户。基于规则或流程的聊天机器人提供预先写好的答案来回答问题，并且不能偏离此内容。基于人工智能的聊天机器人更加动态，可以从更大的信息数据库中提取信息，并且可以随着时间的推移了解更多信息。它们构建在对话式 AI 之上。

ChatGPT：Open AI 的商用聊天机器人，最初基于 GPT-3.5 大语言模型（也称为 text-davinci-003），现在基于 GPT-4 和 GPT-4o，于 2022 年 11 月 30 日发布。

Cheapfake：这个术语是指使用现成且经济实惠的应用程序生成的最新一代深度伪造品，其制作过程使用变得耗时且复杂且更具可扩展性。

Claude：来自开发人员 Anthropic 的大型语言模型系列。第一个 Claude 模型于 2023 年 3 月发布，而最先进的模型 Claude 3 Opus 于 2024 年 3 月发布。

Common Crawl：一个非营利组织，通过收集数据来构建网络数据存储库从互联网上自动找到并建立索引（也称为爬网）的网页。这些数据可供公众免费访问，人工智能开发人员经常使用这些数据来训练他们的模型，以进行自然语言处理 (NLP)、人工智能研究、搜索引擎开发和数据挖掘。

上下文窗口：一种大语言模型的工作记忆，意味着它在做出决策时可以立即考虑的信息量。较新的模型现在具有多达 100,000 到 200,000 个标记的上下文窗口，这意味着理论上它们可以在单个提示中理解多达 300 页的文本。

持续主动学习 (CAL)：人工智能的应用，其中系统学会自我纠正，而不需要持续的人类监督，因为它已经通过监督学习学会了区分不同程度的响应和非响应文档或概念。在电子发现领域，TAR 2.0 是持续主动学习的一个例子。

会话式 AI：使用大量数据、机器学习和自然语言处理来允许用户与对象“交谈”的技术技术，通过识别文本和语音输入来模仿人类交互。对话式人工智能充当一些聊天机器人背后的合成“大脑”。

深度学习：一种利用中性网络模仿人脑的机器学习，使用三层或多层训练来启用人工智能集群数据并做出预测。

Deepfake：令人信服的合成媒体，包括利用深度学习技术创建的图片、视频或音频剪辑。

嵌入：一种将文字、图像等媒体转变为文本的方法。声音转化为机器学习模型和算法可以理解的值。这些称为向量的值通常以数学形式显示，可以将其视为地图上的坐标，因为相关性较高的单词（“笔”和“纸”）最终可能在地图上彼此靠近。嵌入允许人工智能创建这些向量，形成模型内关系的命脉。

微调：针对特定用例调整预先训练的大型语言模型的过程。通过将新的训练数据上传到基础模型，微调可以减少所需的提示量，因为模型可以向用户输出更迎合、更好的结果。微调用例的常见示例包括更改模型的风格或基调或提高可靠性等。

FOOM：“快速启动压倒性掌握”的缩写，这是一种假设场景，其中人工智能将成为非常好，非常快。与“软起飞”相反。

基础模型：通常通过自我监督学习，对大量未标记数据进行训练的大型人工智能模型，可用于以最少的成本准确地执行各种任务。微调。这些任务包括：自然语言处理、图像分类、问答等等。

Garbage In, Garbage Out：这种表达方式意味着人工智能系统的好坏取决于其所训练的数据。如果人工智能系统接受不准确、有偏见或过时的数据训练，其输出将反映出这些缺点。

Gemini：谷歌于 2023 年 2 月以以前的名称 Bard 发布的聊天机器人工具，基于 LaMDA 大型数据库语言模型。

生成对抗网络（GAN）：一种训练神经网络或深度学习架构的方式，通过将它们相互竞争来生成新数据。一方或神经网络被指定为生成器的角色，另一方被指定为鉴别器的角色。生成器创建的输出可能会被误认为真实（非合成）数据，而鉴别器旨在辨别输出是否是使用人工智能创建的。随着训练的继续，生成器能够更好地创建真实的输出，因为鉴别器已经对其进行了多次纠正。反过来，鉴别器能够更好地区分真假，因为它必须非常努力才能区分出差异。

生成式人工智能（GenAI 或 GAI）：人工智能系统的一类，包括大型语言模型，可以根据之前训练的数据，以文本、图像、音频等形式独立创建独特、新颖的内容。与传统的人工智能系统不同，生成式人工智能算法不仅仅是识别模式和做出预测。一些先进的生成式人工智能系统不仅限于其训练数据集，还可以学习回答包含之前未训练过的信息的问题或提示。这被定义为零样本学习。

GPT：生成式预训练变压器；OpenAI 公司各代大型语言模型的前缀。例如，GPT-3是第三代GPT模型。GPT-1于2018年6月发布，GPT-2于2019年2月发布，GPT-3于2020年6月发布，GPT-3.5于2022年3月发布，底层模型年内推出，tex-davinci-003 在 2022 年底受到广泛关注。GPT-4 于 2023 年 3 月 14 日发布。GPT-4o 于 2024 年 5 月 13 日发布。

图形处理单元 (GPU)：一种高效处理器，用于在计算机屏幕上渲染图形。GPU 对于需要强大处理能力的人工智能系统和大型语言模型的训练至关重要。

幻觉：人工智能系统在提出问题或提示时提供虚假、虚构但令人信服的信息的实例回答它确信是正确的。

人机循环：一种协作方法，在构建算法的整个训练和测试阶段将人类输入与人工智能和机器学习系统集成在一起。

杰文斯悖论：一项经济原理，指出提高效率将导致资源消耗增加，包括技术，而不是减少消耗。

LaMDA：对话应用程序的语言模型，一个大型的Google 于 2021 年 5 月发布的语言模型。

大型语言模型（LLM）：一种深度学习算法或机器学习模型，可以执行各种自然语言处理任务。这些包括：阅读、总结、翻译、分类、预测和生成文本单词或句子、以对话方式回答问题或响应提示以及将文本从一种语言翻译成另一种语言。它基于从大量数据集以及监督和强化学习中获得的知识来执行这些任务。LLM 是一种基础模型。

LLaMA：大型语言模型 Meta AI，Meta 于 2023 年 2 月发布的大型语言模型。

说谎者的红利：由法学教授 Bobby 创造Chesney 和 Danielle Citron 认为，随着公众对 Deepfake 的了解越来越多，不良行为者对 Deepfake 证据做出虚假声明的想法越来越可信。公众对深度造假的可信度了解得越多，即使面对真实的证据，虚假的说法也就越可信。即使某些事情是真的，说谎者也可能会暗示这是假的，这对他们有利（他们的红利）。

机器学习：人工智能的一个广泛分支，涉及“教导”人工智能系统执行任务、理解概念或以模仿人类智能行为的方式解决问题，随着更多数据的训练，它逐渐变得更加准确。

模型：基于定义的数据集的人工智能工具或算法，可以做出人类专家会做出的决策给出相同的信息，但决策过程中没有人为干扰。例如，GPT-3 是一种人工智能模型。

多模态人工智能：一种人工智能系统，除了文本之外，还能够处理多种类型的数据，例如图像、视频或声音。生成输出。

自然语言处理 (NLP)：人工智能和计算机科学的一个分支，指计算机或软件理解和阅读文本和语音数据形式的书面和口头语言的能力，包括意图和情感。

“大海捞针”(NIAH) 检索：从大量文本或大型上下文窗口中检索特定信息的能力。NIAH 已被用作一种评估模型的方法，通过将目标信息嵌入到更大的主体中来评估模型查找和使用此类信息的能力。

神经网络（Neural Nets）：一种机器手段模仿人脑的学习，包括同时进行多层训练的能力。神经网络由数百万个处理节点组成，是深度学习的核心。该技术大致模仿了由数千个节点组成的人脑。

OpenAI o1（代号“草莓”）：OpenAI 于 2024 年 9 月 12 日发布的生成式 AI 模型，也俗称作为“草莓”。OpenAI 指出，该模型系列“比以前的版本更“智能”，但速度更慢”，“可以通过复杂的任务进行推理，并解决比以前的科学、编码和数学模型更难的问题。”

参数：知识位或变量，可以被认为是人工智能模型在整个训练过程中学习的概念之间的联系。在训练期间调整参数，以从特定输入获得所需的输出。一般来说，参数越多，人工智能理解复杂概念并将其连接在一起的能力就越强。因此，参数越多，人工智能模型就越先进。

Perplexity AI：一个由人工智能驱动的研究平台，遵循问答研究方法。该工具使用互联网来源生成答案，并通过在 Perplexity 的输出中链接它们来引用来源。

困惑度分数：衡量模型预测的确定性（模型的“困惑”程度）根据新数据进行预测）。较低的困惑度分数相当于更确定的预测。

提示：为生成特定输出而向人工智能模型或机器学习算法发出的指令。

提示工程：识别和使用正确的提示从人工智能工具中产生最有用或最理想的结果。

速率限制：生成式人工智能提供商对用户在指定时间内通过 API 访问其服务的次数施加限制

红队：一种通过模拟攻击场景来测试人工智能模型安全性的技术。该过程旨在在受控环境中识别模型中的弱点和缺陷，通常与开发人员合作。

强化学习：一种机器学习技术，用于训练人工智能模型，其中人工智能系统通过以下方式交互式学习：反复试验，结合来自其自身行动和输出的反馈。

检索增强生成（RAG）：改进大型语言模型输出的过程，涉及向大语言模型提供预先存在的外部信息它为大语言模型提供了背景，并允许其在指定的知识库中做出反应。

机器人流程自动化（RPA）：业务流程自动化的一种形式，也称为软件机器人技术，它允许人类使用智能自动化技术定义一组指令，用于快速且无错误地执行大批量、重复性的人工任务。虽然 RPA 技术与人工智能有相似之处，并且经常包含在相同的讨论中，但它不是人工智能的一种形式。

自我监督学习：机器学习的一种形式，其中模型输入非结构化数据并自动生成数据标签；本质上，模型训练自身来区分输入的不同部分。也称为预测或借口学习。

半监督学习：机器学习的一种形式，其中一些输入数据被标记。半监督学习是监督学习和无监督学习的结合。

Sora：OpenAI 开发的人工智能模型，可以根据文本指令创建逼真的视频场景。

随机（Stochastic Parrots））：艾米丽·本德（Emily Bender）创造的一个比喻，用于描述大型语言模型生成语言“没有任何意义”的理论，而是简单地复述他们在训练期间看到的文本片段。

监督学习：机器学习的一种形式，其中模型被教导如何识别特定的概念或主题，例如，通过人在训练过程中手动纠正机器来识别特定类型的文档。在电子发现中，TAR 1.0 是监督学习的一个例子。

合成数据：由人工智能模型创建的人工数据，该模型在原始数据上进行训练，旨在模仿其属性和结构。合成数据集的一个示例是 Cosmopedia。

令牌：在自然语言处理中，形成书面语言中的语义单元或特定角色的字符序列。将语言流分解为有意义的元素（例如单词或句子）或用非敏感数据替换敏感数据的过程称为标记化。

毒性：生成的有害、辱骂或偏见内容的数量

变形金刚：也称为“预训练模型”，它们是经过训练来解决常见问题的人工智能模型，因此无需从头开始重建。

恐怖谷：一种心理和美学假设，由日本机器人学家 Masahiro Mori 在 20 世纪 70 年代提出，涉及物体的人类相似性与观看者对其的亲和力之间的关系。就人工智能而言，一个物体越“逼真”或“真实”，观看者的亲和力就越强，但只能达到接近准确的程度，此时亲和力会因一种怪异或怪异的感觉而直线下降（“恐怖谷”）。如果达到与人类完全相似，亲和力会再次飙升。对于人工智能生成的图像，死眼之类的特征经常被认为是恐怖谷效应的触发因素。

无监督学习：机器学习的一种形式，其中模型采用深度学习技术来检测模式网络抓取：从网站（通常是大量网站）中提取数据，并使用提取的数据来训练人工智能模型。提取的数据成为学习的基础，为人工智能和生成式人工智能工具随后生成的输出提供信息。

包装器：包装器是指公司向产品添加了不同的界面或一些功能的产品。现有产品或服务，而不会对底层技术进行有意义的改变。

零射击学习：人工智能系统学习如何响应问题或提示、创建新内容或对不需要的数据进行分类的能力之前接受过培训。

不可转载

您可能会喜欢

查看全部

Harvey 首席产品官前往 Debevoise，Am Law 50 招聘仍在进行

3 分钟阅读

Fennemore Craig 与 Tech Boutique 合作启动人工智能计划

McDermott Will Emery 聘请首位人工智能创新总监

热门故事

1律师事务所的颠覆：对于大律师事务所来说，越短越好
2美酒佳肴和磨练（整个周末）：暑期实习生渴望获得“实际问题”的经验
3'这太令人失望了：2023 年，只有 11% 的 MDL 任命给了有色人种律师
4我们对肯塔基州法官在其办公室内被杀的了解
5“我将保留一切”：德克萨斯州破产法官停止对 JJ 的滑石粉审判

特色公司

Gary Martin Hays Associates, P.C. 律师事务所

(470) 294-1674

Mark E. Salomone 律师事务所

(857) 444-6468

Smith Hassler

(713) 739-1250

关于《人工智能术语表 - Law.com》的评论

暂无评论

发表评论

摘要

人工智能术语表讨论人工智能时需要了解和理解的关键术语指南。2024 年 9 月 30 日中午 12:19 阅读 15 分钟人工智能人工智能正在主导所有行业的对话，包括法律行业。生成式人工智能（GenAI 或 GAI）：一类人工智能系统，包括大型语言模型，可以根据之前训练的数据以文本、图像、音频等形式独立创建独特的新颖内容。即使某些事情是真的，说谎者也可能会暗示这是假的，这对他们有利（他们的红利）。机器学习：人工智能的一个广泛分支，涉及“教导”人工智能系统以模仿的方式执行任务、理解概念或解决问题智能人类行为，随着更多数据的训练而逐渐变得更加准确。虽然 RPA 技术与人工智能有相似之处，并且经常被包含在相同的讨论中，但它不是人工智能的一种形式。自我监督学习：机器学习的一种形式，其中模型输入非结构化数据并自动生成数据标签；本质上，模型训练自身来区分输入的不同部分。所有其他用途，请向 asset-and-logo-licensing@alm.com 提交请求。

OC