",log_level=logging.ERROR)模型 = model_builder.build()预测器=预测器.部署(model_access_configs = {“js_model_id”:ModelAccessConfig(accept_eula = True)},accept_eula = True)结果=预测器.预测(样本输入)````### 优化技巧- **自动缩放并缩小到零**:- 启用自动缩放功能以实现更好的资源管理。- **加速部署**:- 通过推测解码使用加速部署技术来提高吞吐量。### 结论Llama 3.3 70B 与 SageMaker 的高级推理功能的集成为在生产环境中高效部署大型语言模型提供了强大的解决方案。利用快速模型加载器、容器缓存和缩放到零等功能可确保高性能,同时保持低成本。通过遵循这些最佳实践并利用全套 SageMaker 工具,组织可以有效管理复杂的 AI 应用程序并确保最佳的资源利用率。### 后续步骤- 尝试提供的代码片段和配置。- 根据实际工作负载模式优化您的部署设置。- 分享您的经验和见解,以进一步改善社区。">
英语轻松读发新版了,欢迎下载、更新

Llama 3.3 70B 现已在 Amazon SageMaker JumpStart 中提供 |亚马逊网络服务

2024-12-17 00:31:42 英文原文

今天,我们很高兴地宣布 Meta 的 Llama 3.3 70B 现已上市Amazon SageMaker JumpStart美洲驼3.3 70B标志着大型语言模型 (LLM) 开发取得了令人兴奋的进步,以更少的计算资源提供了与更大的 Llama 版本相当的性能。

在这篇文章中,我们探讨了如何有效地部署这个模型亚马逊 SageMaker 人工智能,使用先进的 SageMaker AI 功能来实现最佳性能和成本管理。

Llama 3.3 70B 型号概述

Llama 3.3 70B 代表了模型效率和性能优化方面的重大突破。该新模型可提供与 Llama 3.1 405B 相当的输出质量,同时仅需要一小部分计算资源。据 Meta 称,这种效率提升意味着推理操作的成本效益提高了近五倍,使其成为生产部署的有吸引力的选择。

该模型的复杂架构建立在Meta 的变压器设计优化版本,具有增强的注意力机制,可以帮助大幅降低推理成本。在开发过程中,Meta 的工程团队在包含约 15 万亿个代币的广泛数据集上训练了模型,其中包含网络来源的内容和专门为 LLM 开发创建的超过 2500 万个综合示例。这种全面的训练方法使模型具有跨不同任务的强大理解和生成能力。

Llama 3.3 70B 的独特之处在于其精致的训练方法。该模型经历了广泛的监督微调过程,并辅以人类反馈强化学习 (RLHF)。这种双方法训练策略有助于使模型的输出更符合人类偏好,同时保持高性能标准。在针对较大同类产品的基准评估中,Llama 3.3 70B 表现出了显着的一致性,在 10 个标准 AI 基准测试中有 6 个落后于 Llama 3.1 405B 不到 2%,并且实际上在三个类别中表现优于 Llama 3.1 405B。这种性能概况使其成为寻求平衡模型功能与运营效率的组织的理想选择。

下图总结了基准测试结果(来源)。

SageMaker JumpStart 入门

SageMaker JumpStart 是一个机器学习 (ML) 中心,可以帮助加速您的 ML 之旅。借助 SageMaker JumpStart,您可以评估、比较和选择预先训练的基础模型 (FM),包括 Llama 3 模型。这些模型可以根据您的数据用例进行完全自定义,您可以使用 UI 或 SDK 将它们部署到生产中。

通过 SageMaker JumpStart 部署 Llama 3.3 70B 提供了两种便捷的方法:使用直观的 SageMaker JumpStart UI 或通过 SageMaker Python SDK 以编程方式实施。让我们探讨这两种方法,以帮助您选择最适合您需求的方法。

通过 SageMaker JumpStart UI 部署 Llama 3.3 70B

您可以通过以下任一方式访问 SageMaker JumpStart UIAmazon SageMaker 统一工作室或者亚马逊 SageMaker Studio。要使用 SageMaker JumpStart UI 部署 Llama 3.3 70B,请完成以下步骤:

  1. 在 SageMaker Unified Studio 中,在建造菜单,选择快速启动型号

或者,在 SageMaker Studio 控制台上,选择快速启动在导航窗格中。

  1. 搜索 Meta Llama 3.3 70B。
  2. 选择 Meta Llama 3.3 70B 型号。选择
  3. 部署接受最终用户许可协议 (EULA)。
  4. 为了
  5. 实例类型选择一个实例(ml.g5.48xlarge 或 ml.p4d.24xlarge)。选择
  6. 部署等待端点状态显示为

服役中您现在可以使用模型运行推理。

使用 SageMaker Python SDK 部署 Llama 3.3 70B

对于希望自动部署或与现有 MLOps 管道集成的团队,您可以使用以下代码通过 SageMaker Python SDK 部署模型:

从 sagemaker.serve.builder.model_builder 导入模型构建器从 sagemaker.serve.builder.schema_builder 导入 SchemaBuilder从 sagemaker.jumpstart.model 导入 ModelAccessConfig从 sagemaker.session 导入会话导入日志记录sagemaker_session = 会话()artifacts_bucket_name = sagemaker_session.default_bucket()execution_role_arn = sagemaker_session.get_caller_identity_arn()js_model_id =“元文本生成-llama-3-3-70b-指示”gpu_instance_type = "ml.p4d.24xlarge"response =“你好,我是语言模型,我是来帮助你学习英语的。”样本输入 = {"inputs": "你好,我是语言模型,",“参数”:{“max_new_tokens”:128,“top_p”:0.9,“温度”:0.6},}样本输出= [{“生成的文本”:响应}]schema_builder = SchemaBuilder(样本输入,样本输出)model_builder = 模型构建器(模型=js_model_id,schema_builder = schema_builder,sagemaker_session=sagemaker_session,role_arn=execution_role_arn,log_level=logging.ERROR)模型= model_builder.build()预测器= model.deploy(model_access_configs = {js_model_id:ModelAccessConfig(accept_eula = True)},accept_eula = True)预测器.预测(sample_input)

设置自动缩放并缩小到零

您可以选择设置自动缩放,以在部署后缩小到零。欲了解更多信息,请参阅利用 SageMaker Inference 中全新的缩减至零功能来节省成本

使用 SageMaker AI 优化部署

SageMaker AI 简化了 Llama 3.3 70B 等复杂模型的部署,提供了一系列旨在优化性能和成本效率的功能。借助 SageMaker AI 的高级功能,组织可以在生产环境中部署和管理 LLM,充分利用 Llama 3.3 70B 的效率,同时受益于 SageMaker AI 的简化部署流程和优化工具。通过 SageMaker JumpStart 的默认部署使用加速部署,即使用推测性解码来提高吞吐量。有关推测解码如何与 SageMaker AI 配合使用的更多信息,请参阅Amazon SageMaker 推出更新的生成式 AI 推理优化工具包

首先,快速模型加载器通过实施创新的权重流机制彻底改变了模型初始化过程。此功能从根本上改变了模型权重加载到加速器上的方式,大大减少了模型准备推理所需的时间。快速模型加载器不是在开始操作之前将整个模型加载到内存中的传统方法,而是直接将权重从 Amazon Simple Storage Service (Amazon S3) 流式传输到加速器,从而实现更快的启动和扩展时间。

SageMaker 的一项推理功能是容器缓存,它改变了扩展操作期间模型容器的管理方式。此功能通过预缓存容器映像消除了部署扩展的主要瓶颈之一,从而无需在添加新实例时进行耗时的下载。对于像 Llama 3.3 70B 这样的大型模型,容器镜像可能会很大,这种优化可以显着减少缩放延迟并提高整体系统响应能力。

另一个关键能力是缩放至零。它引入了智能资源管理,可根据实际使用模式自动调整计算容量。此功能代表了模型部署成本优化的范式转变,允许端点在不活动期间完全缩小规模,同时在需求恢复时保持快速扩展的能力。此功能对于运行多个模型或处理可变工作负载模式的组织特别有价值。

这些功能共同创建了一个强大的部署环境,最大限度地发挥 Llama 3.3 70B 高效架构的优势,同时提供强大的工具来管理运营成本和性能。

结论

Llama 3.3 70B 与 SageMaker AI 的高级推理功能相结合,为生产部署提供了最佳解决方案。通过使用快速模型加载器、容器缓存和扩展到零功能,组织可以在其 LLM 部署中实现高性能和成本效益。

我们鼓励您尝试此实施并分享您的经验。


关于作者

马克·卡普是 Amazon SageMaker Service 团队的 ML 架构师。他专注于帮助客户大规模设计、部署和管理 ML 工作负载。在业余时间,他喜欢旅行和探索新的地方。

索拉布·特里坎德是 Amazon Bedrock 和 SageMaker Inference 的高级产品经理。在人工智能民主化目标的推动下,他热衷于与客户和合作伙伴合作。他专注于与部署复杂人工智能应用程序、多租户模型推理、成本优化以及使生成式人工智能模型的部署更容易相关的核心挑战。在业余时间,Saurabh 喜欢徒步旅行、学习创新技术、关注 TechCrunch 以及与家人共度时光。

李梅兰妮博士,是位于澳大利亚悉尼的 AWS 的高级生成 AI 专家解决方案架构师,她的重点是与客户合作,利用最先进的 AI 和机器学习工具构建解决方案。她利用大型语言模型 (LLM) 的力量,积极参与亚太及日本地区的多项生成式人工智能计划。在加入 AWS 之前,李博士曾在金融和零售行业担任数据科学职务。

阿德里安娜·西蒙斯是 AWS 的高级产品营销经理。

洛克什瓦兰·拉维是 AWS 的高级深度学习编译器工程师,专门从事 ML 优化、模型加速和 AI 安全性。他专注于提高效率、降低成本和构建安全的生态系统,以实现人工智能技术的民主化,使尖端的机器学习技术在各行各业都易于使用并产生影响力。

约塔姆·莫斯是 AWS AI 的推理软件开发经理。

关于《Llama 3.3 70B 现已在 Amazon SageMaker JumpStart 中提供 |亚马逊网络服务》的评论


暂无评论

发表评论

摘要

由于其先进的推理功能,在 Amazon SageMaker 上部署 Llama 3.3 70B 等复杂模型在性能和成本效率方面具有显着优势。我们来分解一下讨论的要点:### 使用 SageMaker 部署 Llama 3.3 70B 的主要功能1. **快速模型加载器**:- 利用创新的权重流机制,通过将模型权重直接从 Amazon S3 加载到加速器而不需要先将其加载到内存中来减少初始化时间。2. **容器缓存**:- 在扩展操作期间预先缓存容器映像,从而无需在添加新实例时下载。- 由于缩放延迟显着减少并提高了系统响应能力,因此对 Llama 3.3 70B 等大型模型特别有利。3. **缩放至零**:- 根据实际使用模式自动调整计算容量。- 允许端点在不活动期间完全缩小规模,最大限度地降低成本,同时保持需求恢复时快速扩大规模的能力。- 对于有效管理可变工作负载模式至关重要。### 部署过程#### 涉及的步骤:1. **模型初始化**:- 使用 SageMaker 推理工具包中的“ModelBuilder”初始化模型。2. **使用自动缩放进行部署**:- 通过“predictor.deploy”部署模型,指定必要的配置,例如自动缩放到零。3. **预测**:- 通过调用“predictor.predict(sample_input)”,使用部署的预测器进行预测。### 部署代码示例````蟒蛇导入日志记录从 sagemaker.inference 导入预测器、模型构建器、模式构建器从 sagemaker.model_loader.v2 导入 ModelAccessConfig# 用于模式构建的示例输入/输出Sample_input = {"inputs": [{"text": "示例查询"}]}Sample_output = [“预测输出”]schema_builder = SchemaBuilder(样本输入,样本输出)model_builder = 模型构建器(模型=“js_model_id”,schema_builder = schema_builder,sagemaker_session=sagemaker.Session(),role_arn="<您的执行角色>",log_level=logging.ERROR)模型 = model_builder.build()预测器=预测器.部署(model_access_configs = {“js_model_id”:ModelAccessConfig(accept_eula = True)},accept_eula = True)结果=预测器.预测(样本输入)````### 优化技巧- **自动缩放并缩小到零**:- 启用自动缩放功能以实现更好的资源管理。- **加速部署**:- 通过推测解码使用加速部署技术来提高吞吐量。### 结论Llama 3.3 70B 与 SageMaker 的高级推理功能的集成为在生产环境中高效部署大型语言模型提供了强大的解决方案。利用快速模型加载器、容器缓存和缩放到零等功能可确保高性能,同时保持低成本。通过遵循这些最佳实践并利用全套 SageMaker 工具,组织可以有效管理复杂的 AI 应用程序并确保最佳的资源利用率。### 后续步骤- 尝试提供的代码片段和配置。- 根据实际工作负载模式优化您的部署设置。- 分享您的经验和见解,以进一步改善社区。