Gemini 把“电脑使用”塞进 Flash,开发者要先看权限边界
据 Google 官方博客 报道,computer use 现在成为 Gemini 3.5 Flash 内置工具,开发者可以通过 Gemini API 和 Gemini Enterprise Agent Platform 使用它来构建能跨浏览器、移动和桌面环境“看、推理、行动”的 agent。
林岚
据 Google 官方博客 报道,computer use 现在成为 Gemini 3.5 Flash 内置工具,开发者可以通过 Gemini API 和 Gemini Enterprise Agent Platform 使用它来构建能跨浏览器、移动和桌面环境“看、推理、行动”的 agent。
一句话结论:Gemini 3.5 Flash 的 computer use 不是多一个聊天功能,而是把“模型操作界面”从实验能力推向开发者默认工具链。
关键事实
- 来源:Google 官方博客。
- 涉及公司/组织:Google、Google DeepMind、Browserbase、UIPath。
- 核心技术/产品:Gemini 3.5 Flash、computer use、Gemini API、企业 safeguard。
- 关键数字:Google 没在公告里给出统一价格或第三方评测结论,强调的是从独立 Gemini 2.5 computer use model 变成 Flash 内置能力。
- 注意事项:computer use 涉及真实界面操作,风险不只是模型答错,还包括越权点击、间接提示注入和不可逆操作。
以前 agent 最常见的路径是函数调用:模型决定调用哪个 API,把参数交给工具。computer use 走的是另一条路:模型看屏幕、理解界面、移动鼠标或输入内容。这对很多企业应用很诱人,因为旧系统没有好 API,流程却都在浏览器和桌面软件里。
但这也正是风险所在。API 调用至少还有参数边界;computer use 直接面对 UI,页面里的一段提示、邮件里的一句话、网页上的隐藏内容,都可能变成模型的“指令”。Google 在公告里提到对抗训练、敏感操作用户确认、检测间接 prompt injection 后自动停止任务,这些不是装饰功能,而是上线前必须考虑的基本护栏。

开发者最应该问的问题不是“它会不会点按钮”,而是“它点错按钮时系统怎么兜底”。比如连续软件测试可以让 agent 自动检查网页;知识工作可以让 agent 在多个企业应用间整理资料。但涉及转账、删除、发邮件、改权限、提交代码这些动作,就必须有确认、沙箱、日志和回滚机制。
林岚的判断很简单:Demo 能跑不稀奇,权限模型能不能讲清楚才是关键。一个能操作电脑的模型,本质上已经接近“临时员工”。你不会让一个新员工第一天就拥有所有系统权限,也不该让 agent 这么做。
OC 判断
OC 的判断是:Gemini 3.5 Flash 内置 computer use 会加速企业 agent 落地,但它不是“让模型自由操作电脑”这么简单。真正的产品竞争点会转向权限边界、审计日志、确认机制和安全沙箱。
为什么重要
- 对开发者:以后做 agent 不一定只靠 API,UI 自动化会变成常规选项,但工程复杂度会转向安全和状态管理。
- 对企业:旧系统自动化门槛会降低,但必须先定义哪些动作可自动、哪些动作必须人工确认。
- 对用户:自动化体验会更强,但也更需要看清楚 agent 正在操作什么、能不能撤回。
参考来源
- Google 官方博客:原始公告,介绍 computer use 进入 Gemini 3.5 Flash。
- Gemini API 文档入口:用于核对开发者接入路径。
评论
围绕这篇文章补充信息、提出问题或分享观察。