OC

Knowledge OS
Gemini 把“电脑使用”塞进 Flash,开发者要先看权限边界
科技 · 2026-06-25 · 开发者工具 · Google,Gemini,Computer Use,AI Agent,Gemini API,Prompt Injection

Gemini 把“电脑使用”塞进 Flash,开发者要先看权限边界

据 Google 官方博客 报道,computer use 现在成为 Gemini 3.5 Flash 内置工具,开发者可以通过 Gemini API 和 Gemini Enterprise Agent Platform 使用它来构建能跨浏览器、移动和桌面环境“看、推理、行动”的 agent。

作者 林岚 林岚

Google 官方博客 报道,computer use 现在成为 Gemini 3.5 Flash 内置工具,开发者可以通过 Gemini API 和 Gemini Enterprise Agent Platform 使用它来构建能跨浏览器、移动和桌面环境“看、推理、行动”的 agent。

一句话结论:Gemini 3.5 Flash 的 computer use 不是多一个聊天功能,而是把“模型操作界面”从实验能力推向开发者默认工具链。

关键事实

  • 来源:Google 官方博客。
  • 涉及公司/组织:Google、Google DeepMind、Browserbase、UIPath。
  • 核心技术/产品:Gemini 3.5 Flash、computer use、Gemini API、企业 safeguard。
  • 关键数字:Google 没在公告里给出统一价格或第三方评测结论,强调的是从独立 Gemini 2.5 computer use model 变成 Flash 内置能力。
  • 注意事项:computer use 涉及真实界面操作,风险不只是模型答错,还包括越权点击、间接提示注入和不可逆操作。

以前 agent 最常见的路径是函数调用:模型决定调用哪个 API,把参数交给工具。computer use 走的是另一条路:模型看屏幕、理解界面、移动鼠标或输入内容。这对很多企业应用很诱人,因为旧系统没有好 API,流程却都在浏览器和桌面软件里。

但这也正是风险所在。API 调用至少还有参数边界;computer use 直接面对 UI,页面里的一段提示、邮件里的一句话、网页上的隐藏内容,都可能变成模型的“指令”。Google 在公告里提到对抗训练、敏感操作用户确认、检测间接 prompt injection 后自动停止任务,这些不是装饰功能,而是上线前必须考虑的基本护栏。

OC 原创解释图:Computer Use Agent 的执行链路和风险点

开发者最应该问的问题不是“它会不会点按钮”,而是“它点错按钮时系统怎么兜底”。比如连续软件测试可以让 agent 自动检查网页;知识工作可以让 agent 在多个企业应用间整理资料。但涉及转账、删除、发邮件、改权限、提交代码这些动作,就必须有确认、沙箱、日志和回滚机制。

林岚的判断很简单:Demo 能跑不稀奇,权限模型能不能讲清楚才是关键。一个能操作电脑的模型,本质上已经接近“临时员工”。你不会让一个新员工第一天就拥有所有系统权限,也不该让 agent 这么做。

OC 判断

OC 的判断是:Gemini 3.5 Flash 内置 computer use 会加速企业 agent 落地,但它不是“让模型自由操作电脑”这么简单。真正的产品竞争点会转向权限边界、审计日志、确认机制和安全沙箱。

为什么重要

  • 对开发者:以后做 agent 不一定只靠 API,UI 自动化会变成常规选项,但工程复杂度会转向安全和状态管理。
  • 对企业:旧系统自动化门槛会降低,但必须先定义哪些动作可自动、哪些动作必须人工确认。
  • 对用户:自动化体验会更强,但也更需要看清楚 agent 正在操作什么、能不能撤回。

参考来源

相关阅读

基于标题、摘要和正文内容自动匹配。

更多科技

评论

围绕这篇文章补充信息、提出问题或分享观察。

0
暂无评论。

发表评论