今天,我们很高兴地宣布 Meta 的 Llama 3.3 70B 现已上市Amazon SageMaker JumpStart。美洲驼3.3 70B标志着大型语言模型 (LLM) 开发取得了令人兴奋的进步,以更少的计算资源提供了与更大的 Llama 版本相当的性能。
在这篇文章中,我们探讨了如何有效地部署这个模型亚马逊 SageMaker 人工智能,使用先进的 SageMaker AI 功能来实现最佳性能和成本管理。
Llama 3.3 70B 型号概述
Llama 3.3 70B 代表了模型效率和性能优化方面的重大突破。该新模型可提供与 Llama 3.1 405B 相当的输出质量,同时仅需要一小部分计算资源。据 Meta 称,这种效率提升意味着推理操作的成本效益提高了近五倍,使其成为生产部署的有吸引力的选择。
该模型的复杂架构建立在Meta 的变压器设计优化版本,具有增强的注意力机制,可以帮助大幅降低推理成本。在开发过程中,Meta 的工程团队在包含约 15 万亿个代币的广泛数据集上训练了模型,其中包含网络来源的内容和专门为 LLM 开发创建的超过 2500 万个综合示例。这种全面的训练方法使模型具有跨不同任务的强大理解和生成能力。
Llama 3.3 70B 的独特之处在于其精致的训练方法。该模型经历了广泛的监督微调过程,并辅以人类反馈强化学习 (RLHF)。这种双方法训练策略有助于使模型的输出更符合人类偏好,同时保持高性能标准。在针对较大同类产品的基准评估中,Llama 3.3 70B 表现出了显着的一致性,在 10 个标准 AI 基准测试中有 6 个落后于 Llama 3.1 405B 不到 2%,并且实际上在三个类别中表现优于 Llama 3.1 405B。这种性能概况使其成为寻求平衡模型功能与运营效率的组织的理想选择。
下图总结了基准测试结果(来源)。
SageMaker JumpStart 入门
SageMaker JumpStart 是一个机器学习 (ML) 中心,可以帮助加速您的 ML 之旅。借助 SageMaker JumpStart,您可以评估、比较和选择预先训练的基础模型 (FM),包括 Llama 3 模型。这些模型可以根据您的数据用例进行完全自定义,您可以使用 UI 或 SDK 将它们部署到生产中。
通过 SageMaker JumpStart 部署 Llama 3.3 70B 提供了两种便捷的方法:使用直观的 SageMaker JumpStart UI 或通过 SageMaker Python SDK 以编程方式实施。让我们探讨这两种方法,以帮助您选择最适合您需求的方法。
通过 SageMaker JumpStart UI 部署 Llama 3.3 70B
您可以通过以下任一方式访问 SageMaker JumpStart UIAmazon SageMaker 统一工作室或者亚马逊 SageMaker Studio。要使用 SageMaker JumpStart UI 部署 Llama 3.3 70B,请完成以下步骤:
- 在 SageMaker Unified Studio 中,在建造菜单,选择快速启动型号。
或者,在 SageMaker Studio 控制台上,选择快速启动在导航窗格中。
- 搜索 Meta Llama 3.3 70B。
- 选择 Meta Llama 3.3 70B 型号。选择
- 部署。接受最终用户许可协议 (EULA)。
- 为了
- 实例类型选择一个实例(ml.g5.48xlarge 或 ml.p4d.24xlarge)。选择
- 部署。等待端点状态显示为
服役中。您现在可以使用模型运行推理。
使用 SageMaker Python SDK 部署 Llama 3.3 70B
对于希望自动部署或与现有 MLOps 管道集成的团队,您可以使用以下代码通过 SageMaker Python SDK 部署模型:
从 sagemaker.serve.builder.model_builder 导入模型构建器从 sagemaker.serve.builder.schema_builder 导入 SchemaBuilder从 sagemaker.jumpstart.model 导入 ModelAccessConfig从 sagemaker.session 导入会话导入日志记录sagemaker_session = 会话()artifacts_bucket_name = sagemaker_session.default_bucket()execution_role_arn = sagemaker_session.get_caller_identity_arn()js_model_id =“元文本生成-llama-3-3-70b-指示”gpu_instance_type = "ml.p4d.24xlarge"response =“你好,我是语言模型,我是来帮助你学习英语的。”样本输入 = {"inputs": "你好,我是语言模型,",“参数”:{“max_new_tokens”:128,“top_p”:0.9,“温度”:0.6},}样本输出= [{“生成的文本”:响应}]schema_builder = SchemaBuilder(样本输入,样本输出)model_builder = 模型构建器(模型=js_model_id,schema_builder = schema_builder,sagemaker_session=sagemaker_session,role_arn=execution_role_arn,log_level=logging.ERROR)模型= model_builder.build()预测器= model.deploy(model_access_configs = {js_model_id:ModelAccessConfig(accept_eula = True)},accept_eula = True)预测器.预测(sample_input)
设置自动缩放并缩小到零
您可以选择设置自动缩放,以在部署后缩小到零。欲了解更多信息,请参阅利用 SageMaker Inference 中全新的缩减至零功能来节省成本。
使用 SageMaker AI 优化部署
SageMaker AI 简化了 Llama 3.3 70B 等复杂模型的部署,提供了一系列旨在优化性能和成本效率的功能。借助 SageMaker AI 的高级功能,组织可以在生产环境中部署和管理 LLM,充分利用 Llama 3.3 70B 的效率,同时受益于 SageMaker AI 的简化部署流程和优化工具。通过 SageMaker JumpStart 的默认部署使用加速部署,即使用推测性解码来提高吞吐量。有关推测解码如何与 SageMaker AI 配合使用的更多信息,请参阅Amazon SageMaker 推出更新的生成式 AI 推理优化工具包。
首先,快速模型加载器通过实施创新的权重流机制彻底改变了模型初始化过程。此功能从根本上改变了模型权重加载到加速器上的方式,大大减少了模型准备推理所需的时间。快速模型加载器不是在开始操作之前将整个模型加载到内存中的传统方法,而是直接将权重从 Amazon Simple Storage Service (Amazon S3) 流式传输到加速器,从而实现更快的启动和扩展时间。
SageMaker 的一项推理功能是容器缓存,它改变了扩展操作期间模型容器的管理方式。此功能通过预缓存容器映像消除了部署扩展的主要瓶颈之一,从而无需在添加新实例时进行耗时的下载。对于像 Llama 3.3 70B 这样的大型模型,容器镜像可能会很大,这种优化可以显着减少缩放延迟并提高整体系统响应能力。
另一个关键能力是缩放至零。它引入了智能资源管理,可根据实际使用模式自动调整计算容量。此功能代表了模型部署成本优化的范式转变,允许端点在不活动期间完全缩小规模,同时在需求恢复时保持快速扩展的能力。此功能对于运行多个模型或处理可变工作负载模式的组织特别有价值。
这些功能共同创建了一个强大的部署环境,最大限度地发挥 Llama 3.3 70B 高效架构的优势,同时提供强大的工具来管理运营成本和性能。
结论
Llama 3.3 70B 与 SageMaker AI 的高级推理功能相结合,为生产部署提供了最佳解决方案。通过使用快速模型加载器、容器缓存和扩展到零功能,组织可以在其 LLM 部署中实现高性能和成本效益。
我们鼓励您尝试此实施并分享您的经验。
关于作者
马克·卡普是 Amazon SageMaker Service 团队的 ML 架构师。他专注于帮助客户大规模设计、部署和管理 ML 工作负载。在业余时间,他喜欢旅行和探索新的地方。
索拉布·特里坎德是 Amazon Bedrock 和 SageMaker Inference 的高级产品经理。在人工智能民主化目标的推动下,他热衷于与客户和合作伙伴合作。他专注于与部署复杂人工智能应用程序、多租户模型推理、成本优化以及使生成式人工智能模型的部署更容易相关的核心挑战。在业余时间,Saurabh 喜欢徒步旅行、学习创新技术、关注 TechCrunch 以及与家人共度时光。
李梅兰妮博士,是位于澳大利亚悉尼的 AWS 的高级生成 AI 专家解决方案架构师,她的重点是与客户合作,利用最先进的 AI 和机器学习工具构建解决方案。她利用大型语言模型 (LLM) 的力量,积极参与亚太及日本地区的多项生成式人工智能计划。在加入 AWS 之前,李博士曾在金融和零售行业担任数据科学职务。
阿德里安娜·西蒙斯是 AWS 的高级产品营销经理。
洛克什瓦兰·拉维是 AWS 的高级深度学习编译器工程师,专门从事 ML 优化、模型加速和 AI 安全性。他专注于提高效率、降低成本和构建安全的生态系统,以实现人工智能技术的民主化,使尖端的机器学习技术在各行各业都易于使用并产生影响力。
约塔姆·莫斯是 AWS AI 的推理软件开发经理。