Meta 的 Llama 3.2 11B 和 90B 模型的视觉用例 - 亚马逊AWS官方博客

2024-09-25 18:23:16 英文原文

Meta 的 Llama 3.2 11B 和 90B 模型的视觉用例

今天，我们很高兴地宣布 Llama 3.2 在 Amazon SageMaker JumpStart 和 Amazon Bedrock 中可用。Llama 3.2 模型是最先进的预训练和指导微调生成 AI 模型的集合，这些模型有各种尺寸，轻量级纯文本 1B 和 3B 参数模型，适用于边缘设备、中小型设备。尺寸为 11B 和 90B 的参数模型能够执行复杂的推理任务，包括对高分辨率图像的多模式支持。SageMaker JumpStart 是一个机器学习 (ML) 中心，提供对算法、模型和 ML 解决方案的访问，以便您可以快速开始使用 ML。Amazon Bedrock 是一项完全托管的服务，通过单个 API 提供来自领先 AI 公司（如 Meta）的高性能基础模型 (FM) 的选择，以及构建安全的生成式 AI 应用程序所需的广泛功能，隐私和负责任的人工智能。

在这篇文章中，我们将演示如何将 Llama 3.2 11B 和 90B 模型用于各种基于视觉的用例。这是首次发布具有视觉功能的 Metas Llama 模型。这些新功能扩展了 Llama 模型传统纯文本应用程序的可用性。我们在本文中讨论的基于视觉的用例包括文档视觉问答、从图像中提取结构化实体信息以及图像字幕。

Llama 3.2 11B 和 90B 视觉模型概述

Llama 3.2 多模式和多语言大语言模型 (LLM) 集合是各种大小的预训练和指令调整生成模型的集合。11B 和 90B 模型是多模态的，它们支持文本输入/文本输出以及文本图像输入/文本输出。

Llama 3.2 11B 和 90B 是第一个支持视觉任务的 Llama 模型，采用新的模型架构，将图像编码器表示集成到语言模型中。新模型旨在更有效地处理人工智能工作负载，减少延迟并提高性能，使其适用于广泛的应用程序。所有 Llama 3.2 模型都支持 128,000 上下文长度，保持 Llama 3.1 中引入的扩展令牌容量。此外，这些模型还改进了对八种语言的多语言支持，包括英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语。

Llama 3.2 模型现已推出，可在 SageMaker JumpStart 和 Amazon 中进行推理基岩。借助 SageMaker JumpStart，您最初可以在美国东部（俄亥俄）AWS 区域访问 Llama 3.2 模型并支持所需的实例类型。Metas Llama 3.2 90B 和 11B 模型也可通过跨区域推理在美国西部（俄勒冈）区域和美国东部（俄亥俄、弗吉尼亚北部）区域的 Amazon Bedrock 中使用。Llama 3.2 1B 和 3B 模型已在美国西部（俄勒冈）和欧洲（法兰克福）区域以及美国东部（俄亥俄、弗吉尼亚北部）和欧洲（爱尔兰、巴黎）区域推出，通过跨区域推理并计划扩展

解决方案概述

在以下部分中，我们将逐步介绍如何在 Amazon Bedrock 和 Amazon SageMaker JumpStart 中配置 Llama 3.2 视觉模型以进行基于视觉的推理。我们还演示了文档问答、实体提取和标题生成的用例。

对于本文中显示的示例，除非另有说明，否则我们使用 Llama 3.2 90B 模型。时尚图像来自时尚产品图像数据集。字幕生成图像来自人类偏好合成数据集。室内设计和房地产图像来自室内设计数据集。

先决条件

实施本文中概述的步骤需要以下先决条件：

将包含您的所有 AWS 资源的 AWS 账户。
用于访问 Amazon SageMaker 和 Amazon Bedrock 的 AWS Identity and Access Management (IAM) 角色。有关更多信息，请参阅 Amazon SageMaker 的身份和访问管理以及 Amazon Bedrock 的身份和访问管理。
访问 Amazon SageMaker Studio 或 SageMaker 笔记本实例或交互式开发环境 (IDE)，例如 PyCharm 或Visual Studio Code。

有关如何为 Amazon Bedrock 设置 Llama 3.2 模型访问的信息，请参阅发布帖子。有关在 SageMaker JumpStart 中创建模型终端节点的详细信息，请参阅发布文章。

在 Amazon Bedrock 中配置 Llama 3.2 以进行基于视觉的推理

要使用以下命令设置基于视觉的推理任务：Amazon Bedrock 中的 Llama 3.2 模型，使用以下代码片段：

Amazon Bedrock 支持

messages

对象作为 Converse API 的一部分。使用 Converse API，您不必将图像转换为 base64（与 SageMaker JumpStart 相比）。

您可以使用以下代码读取图像：

使用以下代码创建消息对象：

# 为模型输入构造

消息

调用 Amazon Bedrock Converse API，如下所示：

在 SageMaker 中配置 Llama 3.2 以进行基于视觉的推理

您可以使用以下代码片段，通过带有 SageMaker 端点的 Llama 3.2 视觉模型设置基于视觉的推理任务（请参阅 SageMaker JumpStart 博客中的 Llama 3.2）设置推理端点）：

SageMaker JumpStart 部署还可以采用消息 API 样式

messages

对象作为输入（类似于 Amazon Bedrock Converse API）。首先，在通过消息对象发送图像之前，需要将图像读取为base64格式。

使用以下代码读取图像：

创建一个

messages

对象，代码如下：

在前面的代码中，

prompt

是我们询问模型与图像推理的问题。

创建

messages

对象后，您可以将其作为有效负载发送到 SageMaker 端点：

记录问题回答

在本节中，我们将介绍示例使用文档问答的案例。我们重点关注两个用例：首先是根据包含复杂图形信息的财务结果幻灯片回答问题，其次是通过查看图像来解决基于数学的问题。

财务结果幻灯片 Q

关于《Meta 的 Llama 3.2 11B 和 90B 模型的视觉用例 - 亚马逊AWS官方博客》的评论

暂无评论

发表评论

摘要

来自 MetaToday 的 Llama 3.2 11B 和 90B 模型的视觉用例，我们很高兴地宣布 Llama 3.2 在 Amazon SageMaker JumpStart 和 Amazon Bedrock 中可用。解决方案概述在以下部分中，我们将逐步介绍如何在 Amazon Bedrock 和 Amazon SageMaker JumpStart 中配置 Llama 3.2 视觉模型以进行基于视觉的推理。使用以下代码读取图像：使用以下代码创建消息对象：在前面的代码中，prompt 是我们用图像询问模型推理的问题。宽敞的客厅、用餐区和厨房非常适合娱乐，充足的自然光透过大窗户倾泻而入。当他不工作时，他喜欢冲泡一杯完美的精品咖啡，并与妻子一起探索户外。