Meta 的 Llama 3.2 11B 和 90B 模型的视觉用例 - 亚马逊AWS官方博客

2024-09-25 18:23:16 英文原文

Meta 的 Llama 3.2 11B 和 90B 模型的视觉用例

今天,我们很高兴地宣布 Llama 3.2 在 Amazon SageMaker JumpStart 和 Amazon Bedrock 中可用。Llama 3.2 模型是最先进的预训练和指导微调生成 AI 模型的集合,这些模型有各种尺寸,轻量级纯文本 1B 和 3B 参数模型,适用于边缘设备、中小型设备。尺寸为 11B 和 90B 的参数模型能够执行复杂的推理任务,包括对高分辨率图像的多模式支持。SageMaker JumpStart 是一个机器学习 (ML) 中心,提供对算法、模型和 ML 解决方案的访问,以便您可以快速开始使用 ML。Amazon Bedrock 是一项完全托管的服务,通过单个 API 提供来自领先 AI 公司(如 Meta)的高性能基础模型 (FM) 的选择,以及构建安全的生成式 AI 应用程序所需的广泛功能,隐私和负责任的人工智能。

在这篇文章中,我们将演示如何将 Llama 3.2 11B 和 90B 模型用于各种基于视觉的用例。这是首次发布具有视觉功能的 Metas Llama 模型。这些新功能扩展了 Llama 模型传统纯文本应用程序的可用性。我们在本文中讨论的基于视觉的用例包括文档视觉问答、从图像中提取结构化实体信息以及图像字幕。

Llama 3.2 11B 和 90B 视觉模型概述

Llama 3.2 多模式和多语言大语言模型 (LLM) 集合是各种大小的预训练和指令调整生成模型的集合。11B 和 90B 模型是多模态的,它们支持文本输入/文本输出以及文本图像输入/文本输出。

Llama 3.2 11B 和 90B 是第一个支持视觉任务的 Llama 模型,采用新的模型架构,将图像编码器表示集成到语言模型中。新模型旨在更有效地处理人工智能工作负载,减少延迟并提高性能,使其适用于广泛的应用程序。所有 Llama 3.2 模型都支持 128,000 上下文长度,保持 Llama 3.1 中引入的扩展令牌容量。此外,这些模型还改进了对八种语言的多语言支持,包括英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语。

Llama 3.2 模型现已推出,可在 SageMaker JumpStart 和 Amazon 中进行推理基岩。借助 SageMaker JumpStart,您最初可以在美国东部(俄亥俄)AWS 区域访问 Llama 3.2 模型并支持所需的实例类型。Metas Llama 3.2 90B 和 11B 模型也可通过跨区域推理在美国西部(俄勒冈)区域和美国东部(俄亥俄、弗吉尼亚北部)区域的 Amazon Bedrock 中使用。Llama 3.2 1B 和 3B 模型已在美国西部(俄勒冈)和欧洲(法兰克福)区域以及美国东部(俄亥俄、弗吉尼亚北部)和欧洲(爱尔兰、巴黎)区域推出,通过跨区域推理并计划扩展

解决方案概述

在以下部分中,我们将逐步介绍如何在 Amazon Bedrock 和 Amazon SageMaker JumpStart 中配置 Llama 3.2 视觉模型以进行基于视觉的推理。我们还演示了文档问答、实体提取和标题生成的用例。

对于本文中显示的示例,除非另有说明,否则我们使用 Llama 3.2 90B 模型。时尚图像来自时尚产品图像数据集。字幕生成图像来自人类偏好合成数据集。室内设计和房地产图像来自室内设计数据集。

先决条件

实施本文中概述的步骤需要以下先决条件:

  • 将包含您的所有 AWS 资源的 AWS 账户。
  • 用于访问 Amazon SageMaker 和 Amazon Bedrock 的 AWS Identity and Access Management (IAM) 角色。有关更多信息,请参阅 Amazon SageMaker 的身份和访问管理以及 Amazon Bedrock 的身份和访问管理。
  • 访问 Amazon SageMaker Studio 或 SageMaker 笔记本实例或交互式开发环境 (IDE),例如 PyCharm 或Visual Studio Code。

有关如何为 Amazon Bedrock 设置 Llama 3.2 模型访问的信息,请参阅发布帖子。有关在 SageMaker JumpStart 中创建模型终端节点的详细信息,请参阅发布文章。

在 Amazon Bedrock 中配置 Llama 3.2 以进行基于视觉的推理

要使用以下命令设置基于视觉的推理任务:Amazon Bedrock 中的 Llama 3.2 模型,使用以下代码片段:

Amazon Bedrock 支持

messages
对象作为 Converse API 的一部分。使用 Converse API,您不必将图像转换为 base64(与 SageMaker JumpStart 相比)。

您可以使用以下代码读取图像:

使用以下代码创建消息对象:

# 为模型输入构造

消息

调用 Amazon Bedrock Converse API,如下所示:

在 SageMaker 中配置 Llama 3.2 以进行基于视觉的推理

您可以使用以下代码片段,通过带有 SageMaker 端点的 Llama 3.2 视觉模型设置基于视觉的推理任务(请参阅 SageMaker JumpStart 博客中的 Llama 3.2)设置推理端点):

SageMaker JumpStart 部署还可以采用消息 API 样式

messages
对象作为输入(类似于 Amazon Bedrock Converse API)。首先,在通过消息对象发送图像之前,需要将图像读取为base64格式。

使用以下代码读取图像:

创建一个

messages
对象,代码如下:

在前面的代码中,

prompt
是我们询问模型与图像推理的问题。

创建

messages
对象后,您可以将其作为有效负载发送到 SageMaker 端点:

记录问题回答

在本节中,我们将介绍示例使用文档问答的案例。我们重点关注两个用例:首先是根据包含复杂图形信息的财务结果幻灯片回答问题,其次是通过查看图像来解决基于数学的问题。

财务结果幻灯片 Q

关于《Meta 的 Llama 3.2 11B 和 90B 模型的视觉用例 - 亚马逊AWS官方博客》的评论


暂无评论

发表评论

摘要

来自 MetaToday 的 Llama 3.2 11B 和 90B 模型的视觉用例,我们很高兴地宣布 Llama 3.2 在 Amazon SageMaker JumpStart 和 Amazon Bedrock 中可用。解决方案概述在以下部分中,我们将逐步介绍如何在 Amazon Bedrock 和 Amazon SageMaker JumpStart 中配置 Llama 3.2 视觉模型以进行基于视觉的推理。使用以下代码读取图像:使用以下代码创建消息对象:在前面的代码中,prompt 是我们用图像询问模型推理的问题。宽敞的客厅、用餐区和厨房非常适合娱乐,充足的自然光透过大窗户倾泻而入。当他不工作时,他喜欢冲泡一杯完美的精品咖啡,并与妻子一起探索户外。