OC

Knowledge OS
鹦鹉螺口语
Gemini 3 Flash 中引入 Agentic Vision
2026-01-27 19:07:05 · 英文原文

Gemini 3 Flash 中引入 Agentic Vision

作者:Rohan Doshi Product Manager, Google DeepMind

Agentic Vision 是 Gemini 3 Flash 中的一项新功能,它将视觉推理与代码执行相结合,以视觉证据为基础提供答案。

Agentic Vision Text

像 Gemini 这样的前沿人工智能模型通常会通过单一的、静态的一瞥来处理世界。如果他们错过了一个细粒度的细节——比如微芯片上的序列号或远处的街道标志——他们就被迫猜测。

Gemini 3 Flash 中的代理视觉将图像理解从静态行为转变为代理过程。它将视觉视为一项积极的调查。通过将视觉推理与代码执行(Agentic Vision 支持的首批工具之一)相结合,该模型制定了逐步放大、检查和操作图像的计划,以视觉证据为答案。

使用 Gemini 3 Flash 启用代码执行可在大多数视觉基准测试中实现一致的 5-10% 质量提升。

Bar graph showing code execution with Gemini 3 Flash delivering a consistent 5-10% quality boost across most vision benchmarks.

Agentic Vision:新的前沿人工智能能力

代理视觉将代理思考、行动、观察循环引入到图像理解任务中:思考

  1. :模型分析用户查询和初始图像,制定多步骤计划。法案
  2. :模型生成并执行 Python 代码来主动操作图像(例如裁剪、旋转、注释)或分析图像(例如运行计算、计算边界框等)。观察
  3. :转换后的图像将附加到模型的上下文窗口。这使得模型能够在生成最终响应之前检查具有更好上下文的新数据。

Agentic Vision diagram introduces an agentic Think, Act, Observe loop into image understanding tasks

行动中的代理视觉

通过在 API 中启用代码执行,您可以解锁许多新行为,其中许多在我们的演示应用程序在谷歌人工智能工作室中。从 Gemini 应用程序等大型产品到小型初创公司,开发人员已经开始集成解锁许多用例的功能,包括:

1. 缩放和检查

Gemini 3 Flash 经过训练,可以在检测细粒度细节时隐式缩放。

PlanCheckSolver.com是一个人工智能驱动的建筑平面图验证平台,通过使用 Gemini 3 Flash 执行代码来迭代检查高分辨率输入,将准确性提高了 5%。后端日志的视频演示了这一代理过程:Gemini 3 Flash 生成 Python 代码来裁剪和分析特定斑块(例如屋顶边缘或建筑部分)作为新图像。通过将这些作物添加回其上下文窗口,该模型可以直观地验证其推理,以确认符合复杂的建筑规范。

2. 图像标注

Agentic Vision 允许模型通过注释图像与其环境进行交互。Gemini 3 Flash 不仅可以描述它所看到的内容,还可以执行代码直接在画布上绘制以支持其推理。

在下面的示例中,要求模型计算手上的数字双子座应用程序。为了避免计数错误,它使用 Python 在它识别的每个手指上绘制边界框和数字标签。这个“视觉暂存器”确保其最终答案基于像素完美的理解。

3. 视觉数学和绘图

Agentic Vision 可以解析高密度表格并执行 Python 代码以可视化结果。

标准的法学硕士经常在多步视觉算术中产生幻觉。Gemini 3 Flash 通过将计算卸载到确定性的 Python 环境来绕过这个问题。在下面的例子中,来自我们的演示应用程序在 Google AI Studio 中,模型识别原始数据,编写代码将先前的 SOTA 标准化为 1.0,并生成专业的 Matplotlib 条形图。这用可验证的执行取代了概率猜测。

接下来是什么

我们刚刚开始使用 Agentic Vision。

  • 更多隐式代码驱动行为:如今,Gemini 3 Flash 擅长隐式决定何时放大小细节。虽然其他功能(例如旋转图像或执行视觉数学)目前需要明确的提示推动才能触发,但我们正在努力使这些行为在未来的更新中完全隐含。
  • 更多工具:我们还在探索如何为 Gemini 模型配备更多工具,包括网络和反向图像搜索,以进一步加深其对世界的理解。
  • 更多型号尺寸:此外,我们还计划将此功能扩展到 Flash 之外的其他模型尺寸。

如何开始

Agentic Vision 现已通过 Google AI Studio 和 Vertex AI 中的 Gemini API 提供。它也开始在 Gemini 应用程序中推出(通过从模型下拉列表中选择“思考”进行访问)。开发者可以尝试演示在 Google AI Studio 中,或者尝试一下中的功能AI工作室游乐场通过打开“工具”下的“代码执行”。阅读开发者文档了解更多信息(顶点人工智能开发文档)。

关于《Gemini 3 Flash 中引入 Agentic Vision》的评论

暂无评论

发表评论

摘要

Agentic Vision 是 Gemini 3 Flash 中的一项新功能,它结合了视觉推理和代码执行来增强图像理解任务。它引入了主动调查过程,使模型能够逐步放大、检查和操作图像,从而将其答案建立在视觉证据的基础上。这使得大多数视觉基准的质量得到持续提升。Agentic Vision 支持精细细节的隐式缩放、通过 Python 代码执行进行交互式图像注释以及通过将计算卸载到确定性环境来增强视觉数学功能等行为。未来的更新将包括更多隐式行为、附加工具和扩展的模型大小。开发人员可以通过 Google AI Studio 和 Vertex AI 中的 Gemini API 访问 Agentic Vision。