作者:Oyedele Tioluwani
管理生成式人工智能 (GenAI) 项目涉及跟踪训练数据、模型参数和训练运行,以提高模型性能。如果没有可靠的系统,比较实验、确定最佳配置和管理部署可能会变得难以承受。这些挑战减缓了机器学习 (ML) 的进展,从监督学习和非监督学习到先进的神经网络大语言模型 (LLM),导致整个 GenAI 和 ML 工作流程效率低下。
ML流是一个 Apache 2.0 许可的开源平台,通过提供用于跟踪实验、记录参数、记录指标和管理模型版本的工具和 API 来解决这些问题。其界面支持机器学习生命周期的各个阶段,从实验到部署。部署Amazon SageMaker 上的 MLflow作为一项完全托管的服务,可以帮助 ML 团队实现模型生命周期管理的自动化。它有助于解决常见的机器学习挑战,包括有效跟踪、管理和部署机器学习模型,增强跨不同机器学习任务的工作流程。
SageMaker 可扩展基础设施上的完全托管 MLflow 提供了用于处理机器学习实验、模型跟踪和模型注册的弹性设置。这就是为什么此功能很有价值:
作为阿米特·莫迪AWS 产品和项目管理高级经理在接受 The New Stack 采访时解释道,“SageMaker 为数据科学家提供了一个可扩展的环境,消除了一些基础设施负担,让他们能够专注于实验。”
Amazon SageMaker 上托管 MLflow 的优势之一是启动和跟踪实验需要最少的设置。它简化了机器学习模型的关键方面的日志记录,包括指标、参数和工件,这对于改进这些模型至关重要。
通过简化数据捕获,SageMaker 帮助团队专注于改进模型,而不是花时间设置和维护跟踪框架和机器学习实验。数据科学家可以快速设置并开始跟踪每次运行的实验,例如:
读这个简短指南了解它是如何工作的。
微调机器学习模型通常涉及运行多次迭代来测试不同的参数组合。
SageMaker 上的托管 MLflow 可以记录对参数的每次调整,例如学习率、批量大小或优化方法,以及每次更改对模型性能的影响。例如,如果您运行一个调整学习率的实验,然后运行另一个改变批量大小的实验,MLflow 会记录每个实验对关键指标的影响。
此日志记录功能对于高级机器学习模型特别有用,例如在生成人工智能中,其中微调参数对于有效提高模型质量至关重要。
完成多次运行后,您可以使用 MLflow 用户界面 (UI) 分析和比较结果。该界面整合了您的实验数据,在一个地方显示多次运行的指标、参数和工件。以下是如何最大化其价值:
MLflow UI 不仅记录数据,还有助于发现实验过程中的问题。Modi 解释说,“能够无缝跟踪实验使数据科学家能够快速检测甚至是微妙的性能问题。”这使得团队能够有效地排除故障,而不会忽视他们的实验进度。”
将模型从实验过渡到生产是机器学习工作流程的一个重要方面。使用 AWS SageMaker 上的托管 MLflow 等统一系统可以简化此流程,从而在整个机器学习模型生命周期中提供受控转换。
MLflow 模型注册表是一项核心功能,可提供模型版本的高级概述,充当在实验、分阶段和生产等生命周期阶段管理和跟踪模型的主要枢纽。将 SageMaker ModelRegistry 与 MLflow ModelRegistry 集成,结合了两个平台的优势。“这种集成最大限度地减少了部署和更新模型所需的手动工作,照顾到整个生命周期,因此团队可以专注于不间断地实现准确性,”莫迪解释道。
这种集成的优点包括:
当模型准备好投入生产时,SageMaker 允许无缝部署,SageMaker 模型注册表会跟踪元数据、参数和性能指标,以帮助确保模型得到彻底记录和监控。
模型经过全面测试后,您可以通过 SageMaker 的部署选项将其投入生产,该选项提供实时推理和批量预测。SageMaker Model Registry 和托管 MLflow 之间的集成还可以使用 SageMaker Pipelines 来促进自动化生命周期管理,在新数据到达或需要重新训练时更新模型。
例如,如果您正在开发欺诈检测模型,任何更新的模型都可以自动部署到 SageMaker,并且可以使用 SageMaker Pipelines 根据传入数据设置重新训练。
模型的相关性通常取决于实时管理和及时更新的访问,尤其是在数据频繁变化的快节奏领域。SageMaker Pipelines 可用于构建自动化的再训练工作流程,通过 SageMaker Model Registration 提供实时跟踪、自动更新,并使用 Amazon SageMaker 和 MLflow 对整个机器学习管道进行高效的模型管理。
SageMaker 的模型注册表对每个再训练周期都保持严格的版本控制。每个版本都记录有指标、参数和工件以及模型沿袭,使您可以比较历史和当前模型性能。次优模型可以被标记并退役,这样只有性能最好的模型才能投入生产。这种方法最大限度地减少了与部署无效模型相关的风险,创建了一个针对质量和效率进行优化的系统。
随着新数据的出现和模式的转变,模型的预测能力可能会下降。实时模型管理通过在新数据可用时自动进行重新训练来帮助保持模型的准确性。
例如,在推荐引擎或欺诈检测等应用中,模型必须保持最新状态才能良好运行。通过使用 MLflow 设置 SageMaker,团队可以配置模型以自动重新训练并随着数据的发展在生产中进行更新。这种不干涉的方法可以保持模型优化并减少数据科学团队的工作量,让他们专注于模型细化和实验而不是手动更新。
SageMaker 上的 MLflow 与 Amazon 集成事件桥,一种无服务器事件总线,用于连接应用程序并自动化机器学习生命周期中的步骤。EventBridge 允许您创建事件驱动的工作流程,一旦模型需要更新,就会触发重新训练、日志记录和部署。
自动化机器学习工作流程中的每个阶段会创建一个托管的、可扩展的流程,强制每个模型版本之间的一致性。SageMaker 捕获元数据、跟踪更改并标记任何性能回归,让您全面了解模型的生命周期并实现主动管理。
自动化模型重新训练的能力是 SageMaker Pipeline 与托管 MLflow 集成的突出功能之一,在数据快速发展的动态环境中尤其有价值。考虑一个电子商务平台,其中客户行为和偏好会随着时间的推移而变化,从而使静态模型变得过时。相似地,生成式人工智能应用在语言处理或图像合成中需要不断更新才能有效地处理新数据。
借助 SageMaker,您可以配置持续监控,以便在性能指标低于定义的阈值时触发重新训练。例如,如果模型的准确度降至 90% 以下,SageMaker 可以自动:
通过将此流程与托管 MLflow 集成,您可以获得每个再培训周期的完整日志。存储历史指标和参数以供比较,使您能够跟踪一段时间内的性能改进情况。这种封闭的反馈循环加强了模型治理,使模型在每次迭代时都能满足组织标准。
EventBridge 改进了管理由现实世界变化触发的模型更新。例如:
这种自动化使计算机模型与实时数据保持同步,并减少人工干预的需要,使工作流程具有可扩展性和适应性。
对于欺诈检测或推荐系统等用例,实时更新至关重要。EventBridge 允许您根据传入数据流设置触发器,以便根据最新信息持续训练模型。这种主动方法提高了决策速度和准确性,使模型与不断变化的模式保持一致。
随着机器学习应用程序的扩展,SageMaker 使用 EventBridge 等工具处理复杂工作流程的能力仍将至关重要。自动化和实时更新的结合可以帮助企业在数据驱动的世界中保持竞争力。
SageMaker 上的托管 MLflow 简化了数据科学和 DevOps 团队之间的协作。此功能减少了瓶颈并简化了从实验到生产的工作流程。一些主要好处包括:
托管 MLflow 统一了流程数据科学家和开发运营团队。数据科学家利用 MLflow 来跟踪指标、参数和工件,而 DevOps 团队则管理可重复性和与生产相关的任务。这使两个团队能够以相同的观点自行快速识别和解决问题,而不会造成延迟或减慢从实验到生产的过渡。
SageMaker 上的托管 MLflow 使用 AWS Identity and Access Management 来支持安全协作。数据科学家可以访问开发所需的训练数据、日志和工件,而 DevOps 团队则使用 SageMaker Inference 端点管理部署和监控。明确定义的访问角色可以增强安全性和责任感,从而使每个团队能够有效地执行任务。
MLflow 的日志系统提供实验和模型版本的详细审计跟踪。DevOps 团队可以跟踪开发历史记录来解决部署难题,而实验日志可以实现清晰的沟通和无缝切换,从而防止团队之间出现失误。
SageMaker 通过自动将 MLflow 中注册的模型与其模型注册表同步,简化了将模型转移到生产中的过程。它最大限度地减少错误,加速部署并支持复杂的工作流程,例如深度学习和大型语言模型。通过管理基础设施,SageMaker 使团队能够专注于创新并限制对多种工具的需求。
这种集成对于涉及深度学习模型或大型语言模型的复杂工作流程特别有益。通过 SageMaker 管理基础设施,团队可以避免同时使用多个工具,这有助于减少错误并加快上市时间。
随着机器学习的发展,生成式人工智能的兴起带来了独特的挑战,包括管理大规模模型、确保微调的可重复性以及保持实验和部署的效率。Amazon SageMaker with MLflow 提供了应对这些挑战的工具,提供安全协作、自动化生命周期管理和可扩展基础设施,
通过满足生成式 AI 时代复杂系统的需求,托管 MLflow 使团队能够解决当前的障碍,例如快速迭代周期、资源优化和负责任的 AI 实践。
YOUTUBE.COM/THENEWSTACK
科技发展日新月异,不要错过任何一集。订阅我们的 YouTube频道可播放我们所有的播客、采访、演示等。