当它工作时,Operator 会显示其操作的微型浏览器窗口。
然而,Operator 背后的技术仍然相对较新,而且远非完美。据报道,该模型在创建购物列表或播放列表等重复性网络任务方面表现最佳。根据 OpenAI 的内部测试数据,它在处理表格和日历等不熟悉的界面时更加困难,并且在复杂的文本编辑方面表现不佳(成功率为 40%)。
OpenAI 报告称,该系统在测试中取得了 87% 的成功率网络航行者基准测试,测试亚马逊和谷歌地图等实时网站。在网络竞技场使用离线测试站点来训练自主代理,Operator 的成功率下降至 58.1%。对于计算机操作系统任务,CUA 创下了 38.1% 成功率的明显记录操作系统世界基准测试,超越了之前的模型,但仍低于人类 72.4% 的表现。
通过这个不完善的研究预览,OpenAI 希望收集用户反馈并完善系统的功能。该公司承认 CUA 无法在所有情况下可靠地执行,但计划通过用户测试来提高其在更广泛的任务中的可靠性。
对于任何能够看到你如何操作计算机甚至控制计算机某些方面的人工智能模型来说,隐私和安全非常重要。OpenAI 表示,它在 Operator 中内置了多种安全控制措施,要求用户在完成发送电子邮件或购买等敏感操作之前进行确认。运营商对其可以浏览的内容也有限制,由 OpenAI 设置。它无法访问某些网站类别,包括赌博和成人内容。
传统上,基于大型语言模型式 Transformer 技术(例如 Operator)的 AI 模型相对容易被越狱和欺骗。及时注射。
为了捕捉颠覆 Operator 的企图(假设该操作可能嵌入到 AI 模型浏览的网站中),OpenAI 表示它已经实施了实时审核和检测系统。OpenAI 报告称,在早期的内部红队会议期间,系统识别出了除一例之外的所有快速注入尝试案例。