英语轻松读发新版了,欢迎下载、更新

OpenAI 推出 Operator,一个可以操作你的计算机的 AI 代理

2025-01-23 22:24:43 英文原文

当它工作时,Operator 会显示其操作的微型浏览器窗口。

然而,Operator 背后的技术仍然相对较新,而且远非完美。据报道,该模型在创建购物列表或播放列表等重复性网络任务方面表现最佳。根据 OpenAI 的内部测试数据,它在处理表格和日历等不熟悉的界面时更加困难,并且在复杂的文本编辑方面表现不佳(成功率为 40%)。

OpenAI 报告称,该系统在测试中取得了 87% 的成功率网络航行者基准测试,测试亚马逊和谷歌地图等实时网站。在网络竞技场使用离线测试站点来训练自主代理,Operator 的成功率下降至 58.1%。对于计算机操作系统任务,CUA 创下了 38.1% 成功率的明显记录操作系统世界基准测试,超越了之前的模型,但仍低于人类 72.4% 的表现。

通过这个不完善的研究预览,OpenAI 希望收集用户反馈并完善系统的功能。该公司承认 CUA 无法在所有情况下可靠地执行,但计划通过用户测试来提高其在更广泛的任务中的可靠性。

安全和隐私问题

对于任何能够看到你如何操作计算机甚至控制计算机某些方面的人工智能模型来说,隐私和安全非常重要。OpenAI 表示,它在 Operator 中内置了多种安全控制措施,要求用户在完成发送电子邮件或购买等敏感操作之前进行确认。运营商对其可以浏览的内容也有限制,由 OpenAI 设置。它无法访问某些网站类别,包括赌博和成人内容。

传统上,基于大型语言模型式 Transformer 技术(例如 Operator)的 AI 模型相对容易被越狱和欺骗。及时注射

为了捕捉颠覆 Operator 的企图(假设该操作可能嵌入到 AI 模型浏览的网站中),OpenAI 表示它已经实施了实时审核和检测系统。OpenAI 报告称,在早期的内部红队会议期间,系统识别出了除一例之外的所有快速注入尝试案例。

关于《OpenAI 推出 Operator,一个可以操作你的计算机的 AI 代理》的评论


暂无评论

发表评论

摘要

操作员在操作时会显示一个小浏览器窗口,显示其操作。尽管它在创建列表等重复性网络任务中表现出色,但它在复杂的界面和文本编辑方面却表现不佳。它在 WebVoyager 上取得了 87% 的成功率,但在 WebArena 上的成功率仅为 58.1%,在 OSWorld 基准上的成功率为 38.1%。OpenAI 旨在通过用户反馈来改进 Operator,同时强调安全和隐私控制,包括用户对敏感操作的确认以及对浏览某些网站类别的限制。该公司还实施了实时检测系统以防止颠覆企图。