作者:Emma Roth
谷歌正在预览一种新的 Gemini AI 模型,该模型旨在通过浏览器进行导航并与网络交互,让 AI 代理在专为人类而不是机器人设计的界面中执行操作。模型,称为 Gemini 2.5 计算机使用,使用“视觉理解和推理功能”来分析用户的请求并执行任务,例如填写和提交表单。
它可用于 UI 测试或导航为没有 API 或其他可用直接连接的用户设计的界面。该模型的其他版本已用于 AI 模式中的代理功能和水手计划,一个研究原型,使用人工智能代理在浏览器中自行执行任务,例如根据成分列表将商品添加到购物车。
就在 OpenAI 发布一天后,谷歌就宣布了这一消息ChatGPT 的新应用程序作为年度开发日的一部分,并继续关注关于其 ChatGPT 代理功能可以代表您完成复杂的任务。与此同时,人择已经释放了去年,其 Claude AI 模型的一个版本“使用计算机”。
谷歌发布了一些演示视频,展示了其计算机使用工具的运行情况,并指出它们的速度提高了 3 倍。
谷歌表示,其计算机使用模型“在多个网络和移动基准测试中优于领先的替代方案”。与 ChatGPT Agent 和 Anthropic 的计算机使用工具不同,谷歌的新人工智能模型只能访问浏览器,而不是整个计算机环境。谷歌指出,它显示“尚未针对桌面操作系统级别的控制进行优化”,并且目前支持13 个动作,包括打开 Web 浏览器、输入文本以及拖放元素。
Gemini 2.5 计算机使用可通过 Google AI Studio 和 Vertex AI 向开发人员提供,但也有Browserbase 上的演示,您可以在其中观看它完成任务,例如“玩 2048 游戏”或“浏览黑客新闻以了解热门辩论。”
关注主题和作者从这个故事中可以在您的个性化主页源中看到更多类似内容并接收电子邮件更新。