开放的基础模型(FMS)已成为生成的AI创新,使组织能够构建和自定义AI应用程序,同时控制其成本和部署策略。通过提供高质量的公开模型,AI社区促进了快速迭代,知识共享和具有成本效益的解决方案,从而使开发商和最终用户都受益。deepseek ai一家致力于推进AI技术的研究公司已成为该生态系统的重要贡献者。他们的DeepSeek-R1模型代表了一个大型语言模型(LLM)家族,旨在处理从代码生成到一般推理的各种任务,同时保持竞争性能和效率。
亚马逊基岩定制模型导入通过单个无服务器,统一的API,可以将自定义模型与现有FMS一起导入和使用。您可以按需访问导入的自定义模型,而无需管理基础架构。通过将支持的自定义模型与本机基础工具和知识库,护栏和代理等功能集成在一起,从而加快了生成AI应用程序的开发。
在这篇文章中,我们探讨了如何使用Amazon BedRock自定义模型导入的DeepSeek-R1的蒸馏版本,这使他们可以在安全且可扩展的AWS基础架构中以有效的成本在安全且可扩展的AWS基础架构中使用最先进的AI功能。
DeepSeek-R1蒸馏变化
从DeepSeek-R1的基础上,DeepSeek AI基于Meta的Llama和Qwen Architectures创建了一系列蒸馏模型,范围从15亿700亿个参数。蒸馏过程涉及培训较小,更有效的模型,以模仿较大的DeepSeek-R1模型的行为和推理模式,通过将其用作教师本质上将6710亿个参数模型的知识和能力转移到更紧凑的体系结构中。由此产生的蒸馏模型,例如DeepSeek-R1-Distill-Lalama-8B(来自基本模型 Llama-3.1-8B)和DeepSeek-R1-Distill-Lalama-70B(来自基本模型 Llama-3.3-70B教学),在绩效和资源需求之间提供不同的权衡。尽管与原始的671b模型相比,蒸馏模型可能显示出推理能力的降低,但它们可显着提高推理速度并降低计算成本。例如,较小的蒸馏型号(例如8B版本)可以更快地处理请求并消耗较少的资源,从而使它们在生产部署中更具成本效益,而较大的蒸馏版本(例如70B模型。
解决方案概述
在这篇文章中,我们演示了如何使用Amazon Bedrock自定义模型导入的DeepSeek-R1型号的蒸馏版。我们专注于进口当前支持DeepSeek-R1-Distill-lalama-8B和DeepSeek-R1-Distill-distill-lalama-70B的变体,这些变体在性能和资源效率之间提供了最佳的平衡。您可以从亚马逊简单存储服务(亚马逊S3)或亚马逊sagemaker AI建模仓库,并通过亚马逊基岩将其部署在完全管理和无服务器的环境中。下图说明了端到端流。
在此工作流程中,将存储在Amazon S3中的模型工件将导入到Amazon Bedrock中,然后将其自动处理模型的部署和缩放。这种无服务器方法消除了对基础架构管理的需求,同时提供了企业级的安全性和可扩展性。
您可以使用Amazon Bedrock控制台使用图形接口并按照本文中的说明进行部署,或者使用以下笔记本用亚马逊基岩SDK编程部署。
先决条件
您应该有以下先决条件:
- 一个可访问亚马逊基岩的AWS帐户。
- 合适的AWS身份和访问管理(IAM)亚马逊基岩和亚马逊S3的角色和权限。有关更多信息,请参阅为模型导入创建服务角色。
- 一个准备存储自定义型号的S3存储桶。有关更多信息,请参阅创建一个水桶。
- 足够的本地存储空间,对于8B型号至少17 GB或70B型号的135 GB。
准备模型包
完成准备模型包的以下步骤:
- 根据您要部署的模型,从拥抱脸上下载deepseek-r1-distill-lalama模型伪像,从以下链接之一下载:
有关更多信息,您可以跟随拥抱的面孔下载型号或者从集线器下载文件指示。
您通常需要以下文件:
-
- 模型配置文件:
config.json
- 令牌文件:
tokenizer.json
,,,,tokenizer_config.json
, 和tokenizer.mode
- 模型权重文件
.safetensors
格式
- 模型配置文件:
- 将这些文件上传到您计划使用Amazon Bedrock的同一AWS区域中的S3存储夹中的文件夹。请注意您使用的S3路径。
导入模型
完成以下步骤以导入该模型:
- 在亚马逊基岩控制台上,选择导入的模型在下面基础模型在导航窗格中。
- 选择导入模型。
- 为了模型名称,输入模型的名称(建议使用名称中的版本控制方案,以跟踪导入的模型)。
- 为了导入作业名称,输入您的导入工作的名称。
- 为了模型导入设置, 选择亚马逊S3桶作为您的导入源,然后输入您之前指出的S3路径(提供表格中的完整路径
s3:// <your-bucket>/folder-with-with-model-artifacts/
)。 - 为了加密,可选地选择自定义加密设置。
- 为了服务访问角色,选择创建新的IAM角色或提供自己的角色。
- 选择导入模型。
导入该模型将需要几分钟,具体取决于所导入的模型(例如,Distill-Lalla-8b型号可能需要5 20分钟才能完成)。
观看此视频演示以获取逐步指南。
测试导入的模型
导入模型后,您可以使用Amazon Bedrock Playground或直接通过Amazon Bedrock Invocation API进行测试。要使用操场,请完成以下步骤:
- 在亚马逊基岩控制台上,选择聊天 /文字在下面操场在导航窗格中。
- 从模型选择器中,选择导入的型号名称。
- 根据需要调整推理参数,并编写测试提示。例如:
考虑到以下财务数据,<sentoun½><½><> <½-<½ /m计算公司在2023年的营业保证金。请逐步推理,然后将最终答案放在\\盒子{} <a assisthapsivessï½>中
当我们在操场上使用导入的模型时,我们必须包括begins_of_sensence和user/Assistant标签,以正确地格式化DeepSeek模型的上下文;这些标签可帮助模型了解对话的结构并提供更准确的响应。如果您在以下笔记本然后,通过配置模型会自动处理这一点。
- 查看提供的模型响应和指标。
笔记:当您第一次调用模型时,如果您遇到modelNotReadyException
错误SDK会自动以指数向后检索请求。恢复时间取决于按需车队的大小和型号大小。您可以使用python的AWS SDK(boto3)配置对象。有关更多信息,请参阅处理ModelNotReadyException。
准备好导入该模型后,请使用此分步视频演示来帮助您开始。
定价
自定义模型导入使您可以在亚马逊基岩中使用自定义型号的权重进行支持的体系结构,并通过按需模式以完全管理的方式与亚马逊基岩一起使用。自定义模型导入不收取模型导入的费用,您会根据两个因素为推论收取:活动模型副本及其活动持续时间的数量。
从每个型号副本的第一个成功调用开始,就会在5分钟的窗口中进行计费。每分钟每分钟的定价根据架构,上下文长度,区域和计算单元版本在内的因素而变化,并按模型副本大小进行分层。托管所需的自定义模型单元取决于模型的体系结构,参数计数和上下文长度,示例范围从Llama 3.1 8b 128k型号的2个单元到Llama 3.1 70b 128K模型的8个单元。
亚马逊基岩自动管理缩放,默认情况下,根据您的使用模式将零至三个型号副本(可调节配额调节)。如果在5分钟内没有调用,则在需要时缩放为零并扩大规模,尽管这可能涉及数十秒钟的冷延迟。如果推断量始终超过单复制并发限制,则添加其他副本。根据输入/输出令牌混合物,硬件类型,模型大小,体系结构和推理优化等因素,在导入期间确定每个副本的最大吞吐量和并发性。
考虑以下定价示例:应用程序开发人员导入自定义的Llama 3.1类型模型,该模型的大小为8B参数,在US-EAST-1区域为128K序列长度,并在1个月后删除该模型。这需要2个自定义单元。因此,每分钟的价格为0.1570美元,型号存储成本为本月3.90美元。
有关更多信息,请参阅亚马逊基岩价格。
基准
DeepSeek拥有已发布的基准将其蒸馏型与模型存储库中的原始DeepSeek-R1和基本Llama型号进行比较。基准测试表明,根据任务,DeepSeek-R1-Distill-Lalama-70B保持在原始模型的80-90%之间,而8B版本的性能在59-92%之间的性能介于59-92%之间,资源需求大大降低。两种蒸馏版本都在特定的推理任务中均显示了其相应的基本乳拉模型的改进。
其他考虑因素
在亚马逊基岩中部署DeepSeek模型时,请考虑以下方面:
- 模型版本是必不可少的。由于自定义模型导入为每个导入创建唯一的模型,请在模型名称中实现明确的版本控制策略,以跟踪不同的版本和变化。
- 当前支持的模型格式专注于基于骆驼的体系结构。尽管DeepSeek-R1蒸馏版具有出色的性能,但AI生态系统仍在迅速发展。随着新的架构和较大的型号通过平台提供,请密切关注亚马逊基岩模型目录。
- 仔细评估您的用例要求。尽管诸如DeepSeek-R1-Distill-Lalama-70B之类的较大型号可提供更好的性能,但8B版本可能会以较低的成本为许多应用程序提供足够的功能。
- 考虑实施监视和可观察性。Amazon CloudWatch为您的导入模型提供指标,可帮助您跟踪使用模式和性能。您可以通过AWS花费探险家。
- 从较低的并发配额开始,并根据实际使用模式扩展。每个帐户的三个并发模型的默认限制适用于大多数初始部署。
结论
Amazon Bedrock定制模型导入授权组织使用强大的公开模型(例如DeepSeek-R1蒸馏版)等,同时从企业级基础架构中受益。亚马逊基岩的无服务器性质消除了管理模型部署和操作的复杂性,使团队可以专注于构建应用程序而不是基础架构。Amazon Bedrock凭借自动缩放,每次使用定价和与AWS服务无缝集成等功能,为AI工作负载提供了准备生产的环境。DeepSeek的创新蒸馏方法与亚马逊基础式基础设施的结合提供了最佳的性能,成本和运营效率。组织可以从较小的模型开始,并根据需要扩大规模,同时保持对其模型部署的完全控制,并从AWS安全性和合规能力中受益。
在专有和开放FMS Amazon基岩之间进行选择的能力使组织具有优化其特定需求的灵活性。开放模型可以完全控制模型工件,使其能够具有成本效益的部署,使其非常适合定制,成本优化或模型透明度至关重要的方案。这种灵活性以及亚马逊基岩统一的API和企业级基础架构,使组织可以构建可以随着需求而适应的弹性AI策略。
有关更多信息,请参阅亚马逊基岩用户指南。
关于作者
拉吉·帕塔克(Raj Pathak)是加拿大和美国的Fortune 50和中型FSI(银行,保险,资本市场)客户的主要解决方案建筑师和技术顾问。Raj专门研究机器学习,并在生成AI,自然语言处理,智能文档处理和MLOP中进行了应用。
Yanyan Zhang``是亚马逊Web服务的高级AI数据科学家,在那里她一直致力于尖端的AI/ML技术作为生成的AI专家,可帮助客户使用Generative AI来实现所需的结果。Yanyan毕业于德克萨斯A&M大学,获得电气工程博士学位。在工作之外,她喜欢旅行,锻炼和探索新事物。
伊尚·辛格(Ishan Singh)是亚马逊Web服务的生成性AI数据科学家,他帮助客户建立创新和负责任的AI解决方案和产品。Ishan具有强大的AI/ML背景,专门从事推动业务价值的生成AI解决方案。在工作之外,他喜欢打排球,探索当地的自行车道,并与妻子和狗Beau共度时光。
摩根·兰基(Morgan Rankey)是位于纽约市的解决方案建筑师,专门从事对冲基金。他擅长协助客户在AWS生态系统中建立弹性的工作量。在加入AWS之前,摩根带领销售工程团队通过其IPO风险。他的职业生涯开始着重于机器资产管理的AI/ML解决方案,为全球一些最大的汽车公司提供服务。
苛刻的帕特尔是AWS解决方案架构师,为美国各地的200多个SMB客户提供支持,以通过云本地解决方案推动数字化转型。作为AI&ML专家,他专注于生成的AI,计算机视觉,增强学习和异常检测。在科技界之外,他通过打高尔夫球场并与他的狗进行风景秀丽的徒步旅行来充电。