英语轻松读发新版了,欢迎下载、更新

机器学习中的主动学习:它是什么以及如何使用它

2024-12-24 14:54:25 英文原文

作者:Holly Landis

随着数据的收集和存储成本变得越来越便宜,数据科学家常常被大量的未标记数据淹没。主动学习(机器学习)帮助他们理解这一切。 

算法通常用于主动选择机器正在学习和训练的数据。机器学习并可以从未分类的数据池中进行选择,以标记为与训练数据类似。然后它可以不断地训练这些传入的数据。

作为机器学习一部分的主动学习的总体目标是最大限度地减少机器需要训练的标记数据量,同时最大限度地提高其未来的整体性能。这就是数据科学家使用主动学习工具增强训练阶段使用的机器学习、注释和标记数据。 

机器学习中的主动学习是什么?

主动学习是机器学习的一种,其中策略性地选择数据点进行标记和训练,以优化机器的学习过程。通过关注信息最丰富的实例,这种方法有助于用更少的标记样本提高模型的准确性。

主动学习机器学习:它是如何运作的?

主动学习通常通过基于交互式循环的过程进行。这是主动学习的过程机器学习看起来像。

  • 初始化。在第一阶段,一小组预先标记的数据点被输入系统以开始训练机器。正确执行此步骤至关重要,因为它构成了机器如何理解在未来迭代中标记和训练哪些数据的基础。
  • 模型训练。输入完成后,模型就可以开始使用标记数据进行训练。 
  • 查询策略。初始训练完成后,查询策略会指导机器选择接下来要标记的新数据。 
  • 人工注释。某些数据点可能需要由人类数据科学家进行评估和注释,尤其是在最初的几轮中。这确保了数据被正确解析并适当标记以进行持续训练。此阶段的错误可能会显着改变机器的训练方式,因此在此阶段进行人工输入非常重要。
  • 型号更新。在新数据被标记并合并到训练集中后,模型可以使用这些新的增强数据进行重新训练,以改善整体结果。
  • 主动学习循环。重复第 3 步到第 6 步,让机器不断选择信息最丰富的数据。这使得算法能够对其进行标记并将其添加到训练数据集中。当新数据不再提供显着改进或确定另一个停止点时,训练将结束,机器将准备好使用。

active learning machine learning process来源:思想工作

主动学习查询策略 

我们了解到,主动学习通过从未标记的数据集中选择最有价值的数据点来增强模型训练。这种选择数据点的过程,或者说查询策略,可以分为以下三种方法。

基于流的选择性采样

当数据持续到达时,就像实时分析一样,这就是主动学习。该模型一次处理一个数据,并选择最有用的样本进行标记,以提高其准确性。两种常见的选择策略是:

  • 不确定性抽样:挑选模型不确定的样本。
  • 多样性抽样:选择与模型所见不同的样本。

这种方法非常适合实时场景,例如分析视频流,因为在这种情况下无法等待一批数据。它节省了标签成本,适应不断变化的数据,并且可扩展性良好。然而,它可能面临诸如偏差、选择不太有用的样本以及依赖流设置等挑战。

基于池的抽样

通过这种方法,模型从未标记的数据池中选择最有价值的数据点标签,仅关注可以提高其准确性的示例。基于池的采样可以节省时间、成本和资源,并通过定位信息最丰富的样本来加速学习。然而,其有效性取决于未标记数据池的质量和采样策略。选择不当的数据或无效的方法会降低模型性能,并且它可能不适用于非结构化或噪声数据。此外,由于数据集的大小,它通常需要大量的数字内存。

查询综合方法

查询合成方法是主动学习中使用的技术,用于从现有数据中生成用于标记的新样本。当标记数据有限或获取成本昂贵时,此方法非常有用。通过创建多样化的训练数据,这些方法有助于提高型号表现。这是该怎么办:

  • 扰动:对现有标记数据进行轻微更改,例如添加噪声或翻转标签。
  • 插值/外推:组合或扩展现有示例以创建新示例。
  • 生成方法:使用类似的技术生成对抗网络(GAN)综合现实数据。

这些合成样本由注释器标记并添加到训练数据集中,为模型提供更具代表性和多样化的训练数据。

这种方法的一些局限性包括:

  • 生成合成样本时的计算成本很高,尤其是对于图像或视频等复杂数据。
  • 设计不当的方法会产生不具代表性的数据,从而降低了准确性。
  • 过度拟合的风险,模型可能会优先考虑合成数据而不是真实数据。

主动学习与被动学习

在训练机器学习模型时,数据标记和选择的方法在确定效率和性能方面起着至关重要的作用。主动学习和被动学习是用于此目的的两种不同策略。下表突出显示了这些方法之间的主要区别:

特征 主动学习 被动学习
标签 依靠查询策略来识别最有价值的训练数据进行标记。 利用完全标记的数据集,无需任何选择性标记方法。
数据选择 根据预定义的查询策略选择特定的数据点。 使用整个标记数据集进行模型训练。
成本 需要人工注释者,这可能会很昂贵,具体取决于所需的专业知识。 无需人类专家,因为整个数据集已经被标记。
表现 通过关注更少但信息更丰富的样本来增强模型性能。 需要更多的训练数据才能达到可比较的性能水平。
适应性 非常适合动态数据集和不断变化的环境。 由于依赖预先标记的数据可用性,适应性有限。

主动学习与强化学习

既主动学习又强化学习专注于减少开发模型所需的标签数量,但从不同的角度进行操作。

主动学习

如前所述,该技术从未标记的数据集中选择最有价值的样本,并向人工注释者查询其标签。它提高了模型的准确性,同时保持较低的标签成本。主动学习在医学成像和自然语言处理(NLP),其中标签可能既昂贵又耗时。

强化学习

另一方面,强化学习侧重于训练代理在环境中做出一系列决策。代理通过与环境交互并根据其行为通过奖励或惩罚接收反馈来学习。这种方法通常应用于机器人和自主系统。强化学习旨在随着时间的推移最大化累积奖励,鼓励代理探索和优化其行动以实现长期目标。

主动学习模式的好处

主动学习有几个关键好处机器学习,主要关注数据科学家的速度和成本。

降低标签成本 

大型数据集会占用大量内存,并且解析和标记成本高昂。通过减少标记的数据量,主动学习可以显着减少预算支出。自动分段规则还可以帮助降低成本,同时确保所使用的数据对预期结果最重要。

更快的收敛速度 

融合是机器学习的重要组成部分。在训练过程中,模型会将损失消除到额外的训练不会进一步改进模型的程度。主动学习仅关注最相关的数据样本,有助于更快地达到这一收敛点。

更高的准确性 

使用信息最丰富的样本进行标记,可以更快地实现准确性并提高模型的性能。主动学习模型旨在选择可降低模型不确定性的数据样本,同时旨在随着时间的推移提高准确性。 

主动学习 ML 用例

主动学习在各个领域都有应用。以下是一些示例:

  • 自然语言处理:主动学习被使用对于像这样的任务情绪分析、命名实体识别和文本分类,其中手动标记文本数据可能是劳动密集型的。通过关注最模糊或最新颖的句子,主动学习可以降低标记成本。
  • 医疗诊断:在医学成像和诊​​断中,主动学习有助于识别信息最丰富的案例供专家审查,从而增强模型使用较少标记数据做出准确预测的能力。
  • 语音识别:主动学习通过有效标记语音数据来帮助开发语音模型。然而,这个过程 由于需要语言专业知识。
  • 欺诈检测:在金融服务中,主动学习可用于识别非典型或模糊的潜在欺诈交易,从而更有效地利用人类监督。
  • 自动驾驶汽车:主动学习通过从现实世界的驾驶数据中选择边缘案例来协助训练模型,这对于提高自主系统的安全性和性能至关重要。
  • 药物发现:主动学习已应用的过程选择值得进一步研究的化合物,这可以通过最大限度地减少所需的实验数量来实现。
  • 图像分类:在标记图像成本高或耗时的场景中,可以采用主动学习来选择最不确定或最具代表性的图像进行标记,从而提高模型性能,而无需标记整个数据集。

前 5 名主动学习工具

主动学习工具对于人工智能 (AI) 机器的开发至关重要。这些工具专注于为培训过程提供信息的迭代反馈循环。

以上是 G2 2025 年冬季网格报告中排名前 5 的主动学习软件解决方案。


Click-to-chat-with-G2's-Monty-AI

让主动学习成为您的默认培训模式

使用主动学习技术来训练人工智能模型是在大型机器学习项目上节省资金的最佳方法之一,同时在达到关键收敛水平之前加快迭代时间。探索新技术并利用这些技术将您的模型开发成可用的、有用的项目!

内部没有必要的资源?查看机器学习即服务 (MLaaS)用于模型训练和开发。


Holly Landis

Holly Landis 是 G2 的自由撰稿人。她还专门从事数字营销顾问,专注于页面搜索引擎优化、文案和内容写作。她与中小企业和创意企业合作,这些企业希望更加有意识地制定数字战略,并在自己拥有的渠道上实现有机增长。作为一个现在居住在美国的英国人,你通常会发现她在她珍爱的安妮·博林杯子里喝了大量的茶,同时观看无数次重播的《公园与休闲》。

关于《机器学习中的主动学习:它是什么以及如何使用它》的评论


暂无评论

发表评论

摘要

主动学习确实是一种强大的技术,可以帮助机器学习模型以更少的标记数据点实现更高的准确性,从而降低成本并加速模型开发。让我们更深入地研究与主动学习相关的好处、用例和工具。### 主动学习的主要好处1. **降低标记成本**:手动标记大型数据集可能非常昂贵且耗时。主动学习通过仅选择信息最丰富的数据点进行标记来解决此问题,从而降低总体成本。2. **更快的收敛**:通过关注高影响力的数据样本,主动学习有助于模型更快地达到收敛,这在迭代开发周期中至关重要。3. **提高准确性**:主动学习算法优先考虑将为模型性能提供最显着改进的数据,从而获得更高的准确性和更好的泛化能力。4. **可扩展性**:随着数据集变得越来越大,手动标记所有数据变得不切实际。主动学习有助于保持可管理的标签工作,同时仍然实现高质量的模型。### 用例1. **自然语言处理(NLP)**:- **情感分析**:识别歧义或新颖的句子以供专家评审。- **命名实体识别**:仅标记信息最丰富的实体,以快速提高模型准确性。2. **医学诊断**:- **放射学和病理学**:专注于需要人工监督的复杂病例,例如医学图像中的异常异常。3. **语音识别**:- 通过选择对模型最具代表性或最具挑战性的样本来有效地标记语音数据。4. **欺诈检测**:- 识别偏离正常行为模式的可疑交易,实现更有效的人工审查。5. **自动驾驶车辆**:- 训练模型来处理现实驾驶数据中遇到的边缘情况和罕见场景。6. **药物发现**:- 根据潜在影响选择化合物进行进一步研究,减少大量实验测试的需要。7. **图像分类**:- 优先考虑最模糊或最具代表性的图像,提高模型性能,而无需标记大型数据集中的每个图像。### 顶级主动学习工具1. **亚马逊增强人工智能 (A2I)**:- 为机器学习应用程序提供人工审核服务,重点关注具有挑战性的数据点。2. **水族馆**:- 一个能够持续监控和验证机器学习模型的平台,结合主动学习技术来随着时间的推移提高模型性能。3. **深度检查**:- 通过识别数据集中的问题并突出显示需要人工审查的领域,提供用于验证和测试机器学习模型的工具。4. **编码**:- 一个协作平台,可帮助团队有效管理数据标记流程,结合主动学习算法来确定高价值数据的优先级。5.**V7**:- 提供用于数据集管理、注释和模型训练的综合套件,包括用于优化标记工作的主动学习功能。### 在您的项目中实施主动学习1. **从试点项目开始**:首先将主动学习技术应用于较小的数据集或收益最明显的特定用例。2. **评估性能指标**:跟踪每个标记数据点的准确性改进和收敛时间等指标,以评估主动学习策略的有效性。3. **迭代和完善**:根据性能反馈不断完善您的方法,根据需要调整算法和策略。4. **利用现有工具**:利用 Amazon A2I、Aquarium、Deepchecks、Encord 和 V7 等工具来简化项目中主动学习的实施。5. **与专家合作**:聘请领域专家和数据科学家来确定标记的最关键数据点,确保模型受益于高质量的输入。通过将主动学习纳入机器学习工作流程,您可以实现更高效、更具成本效益的模型开发,最终在各个领域实现性能更佳的 AI 系统。