今天,我们很高兴地宣布 Llama 3.2 在 Amazon SageMaker JumpStart 和 Amazon Bedrock 中可用。Llama 3.2 模型是最先进的预训练和指导微调生成 AI 模型的集合,这些模型有各种尺寸,轻量级纯文本 1B 和 3B 参数模型,适用于边缘设备、中小型设备。尺寸为 11B 和 90B 的参数模型能够执行复杂的推理任务,包括对高分辨率图像的多模式支持。SageMaker JumpStart 是一个机器学习 (ML) 中心,提供对算法、模型和 ML 解决方案的访问,以便您可以快速开始使用 ML。Amazon Bedrock 是一项完全托管的服务,通过单个 API 提供来自领先 AI 公司(如 Meta)的高性能基础模型 (FM) 的选择,以及构建安全的生成式 AI 应用程序所需的广泛功能,隐私和负责任的人工智能。
在这篇文章中,我们将演示如何将 Llama 3.2 11B 和 90B 模型用于各种基于视觉的用例。这是首次发布具有视觉功能的 Metas Llama 模型。这些新功能扩展了 Llama 模型传统纯文本应用程序的可用性。我们在本文中讨论的基于视觉的用例包括文档视觉问答、从图像中提取结构化实体信息以及图像字幕。
Llama 3.2 多模式和多语言大语言模型 (LLM) 集合是各种大小的预训练和指令调整生成模型的集合。11B 和 90B 模型是多模态的,它们支持文本输入/文本输出以及文本图像输入/文本输出。
Llama 3.2 11B 和 90B 是第一个支持视觉任务的 Llama 模型,采用新的模型架构,将图像编码器表示集成到语言模型中。新模型旨在更有效地处理人工智能工作负载,减少延迟并提高性能,使其适用于广泛的应用程序。所有 Llama 3.2 模型都支持 128,000 上下文长度,保持 Llama 3.1 中引入的扩展令牌容量。此外,这些模型还改进了对八种语言的多语言支持,包括英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语。
Llama 3.2 模型现已推出,可在 SageMaker JumpStart 和 Amazon 中进行推理基岩。借助 SageMaker JumpStart,您最初可以在美国东部(俄亥俄)AWS 区域访问 Llama 3.2 模型并支持所需的实例类型。Metas Llama 3.2 90B 和 11B 模型也可通过跨区域推理在美国西部(俄勒冈)区域和美国东部(俄亥俄、弗吉尼亚北部)区域的 Amazon Bedrock 中使用。Llama 3.2 1B 和 3B 模型已在美国西部(俄勒冈)和欧洲(法兰克福)区域以及美国东部(俄亥俄、弗吉尼亚北部)和欧洲(爱尔兰、巴黎)区域推出,通过跨区域推理并计划扩展
在以下部分中,我们将逐步介绍如何在 Amazon Bedrock 和 Amazon SageMaker JumpStart 中配置 Llama 3.2 视觉模型以进行基于视觉的推理。我们还演示了文档问答、实体提取和标题生成的用例。
对于本文中显示的示例,除非另有说明,否则我们使用 Llama 3.2 90B 模型。时尚图像来自时尚产品图像数据集。字幕生成图像来自人类偏好合成数据集。室内设计和房地产图像来自室内设计数据集。
实施本文中概述的步骤需要以下先决条件:
有关如何为 Amazon Bedrock 设置 Llama 3.2 模型访问的信息,请参阅发布帖子。有关在 SageMaker JumpStart 中创建模型终端节点的详细信息,请参阅发布文章。
要使用以下命令设置基于视觉的推理任务:Amazon Bedrock 中的 Llama 3.2 模型,使用以下代码片段:
Amazon Bedrock 支持
messages对象作为 Converse API 的一部分。使用 Converse API,您不必将图像转换为 base64(与 SageMaker JumpStart 相比)。
您可以使用以下代码读取图像:
使用以下代码创建消息对象:
# 为模型输入构造
消息
调用 Amazon Bedrock Converse API,如下所示:
您可以使用以下代码片段,通过带有 SageMaker 端点的 Llama 3.2 视觉模型设置基于视觉的推理任务(请参阅 SageMaker JumpStart 博客中的 Llama 3.2)设置推理端点):
SageMaker JumpStart 部署还可以采用消息 API 样式
messages对象作为输入(类似于 Amazon Bedrock Converse API)。首先,在通过消息对象发送图像之前,需要将图像读取为base64格式。
使用以下代码读取图像:
创建一个
messages对象,代码如下:
在前面的代码中,
prompt是我们询问模型与图像推理的问题。
创建
messages对象后,您可以将其作为有效负载发送到 SageMaker 端点:
在本节中,我们将介绍示例使用文档问答的案例。我们重点关注两个用例:首先是根据包含复杂图形信息的财务结果幻灯片回答问题,其次是通过查看图像来解决基于数学的问题。