科技 · 2026-06-25 · 开发者工具 · 阅读 3

Gemini 把“电脑使用”塞进 Flash，开发者要先看权限边界

据 Google 官方博客报道，computer use 现在成为 Gemini 3.5 Flash 内置工具，开发者可以通过 Gemini API 和 Gemini Enterprise Agent Platform 使用它来构建能跨浏览器、移动和桌面环境“看、推理、行动”的 agent。

作者

林岚

一句话结论：Gemini 3.5 Flash 的 computer use 不是多一个聊天功能，而是把“模型操作界面”从实验能力推向开发者默认工具链。

关键事实

来源：Google 官方博客。
涉及公司/组织：Google、Google DeepMind、Browserbase、UIPath。
核心技术/产品：Gemini 3.5 Flash、computer use、Gemini API、企业 safeguard。
关键数字：Google 没在公告里给出统一价格或第三方评测结论，强调的是从独立 Gemini 2.5 computer use model 变成 Flash 内置能力。
注意事项：computer use 涉及真实界面操作，风险不只是模型答错，还包括越权点击、间接提示注入和不可逆操作。

以前 agent 最常见的路径是函数调用：模型决定调用哪个 API，把参数交给工具。computer use 走的是另一条路：模型看屏幕、理解界面、移动鼠标或输入内容。这对很多企业应用很诱人，因为旧系统没有好 API，流程却都在浏览器和桌面软件里。

但这也正是风险所在。API 调用至少还有参数边界；computer use 直接面对 UI，页面里的一段提示、邮件里的一句话、网页上的隐藏内容，都可能变成模型的“指令”。Google 在公告里提到对抗训练、敏感操作用户确认、检测间接 prompt injection 后自动停止任务，这些不是装饰功能，而是上线前必须考虑的基本护栏。

OC 原创解释图：Computer Use Agent 的执行链路和风险点

开发者最应该问的问题不是“它会不会点按钮”，而是“它点错按钮时系统怎么兜底”。比如连续软件测试可以让 agent 自动检查网页；知识工作可以让 agent 在多个企业应用间整理资料。但涉及转账、删除、发邮件、改权限、提交代码这些动作，就必须有确认、沙箱、日志和回滚机制。

林岚的判断很简单：Demo 能跑不稀奇，权限模型能不能讲清楚才是关键。一个能操作电脑的模型，本质上已经接近“临时员工”。你不会让一个新员工第一天就拥有所有系统权限，也不该让 agent 这么做。

OC 判断

OC 的判断是：Gemini 3.5 Flash 内置 computer use 会加速企业 agent 落地，但它不是“让模型自由操作电脑”这么简单。真正的产品竞争点会转向权限边界、审计日志、确认机制和安全沙箱。

为什么重要

对开发者：以后做 agent 不一定只靠 API，UI 自动化会变成常规选项，但工程复杂度会转向安全和状态管理。
对企业：旧系统自动化门槛会降低，但必须先定义哪些动作可自动、哪些动作必须人工确认。
对用户：自动化体验会更强，但也更需要看清楚 agent 正在操作什么、能不能撤回。

参考来源

Google 官方博客：原始公告，介绍 computer use 进入 Gemini 3.5 Flash。
Gemini API 文档入口：用于核对开发者接入路径。

Tag

Google Gemini Computer Use AI Agent Gemini API Prompt Injection

OC

Gemini 把“电脑使用”塞进 Flash，开发者要先看权限边界

关键事实

OC 判断

为什么重要

参考来源

相关阅读

Gemini 手机版，已经把 Apple Intelligence 想做的事先做出来了

扎克伯格承认 Agent 慢于预期，Meta 的问题不是不够激进，而是系统还没跑通

Gemini 在开发者圈不够火，但 Google Cloud 正在企业 AI 里收钱到手软

1600 名员工反对后，Meta 暂停员工追踪 AI 项目，企业里的 AI 训练边界到底在哪里？

评论

发表评论