作者:Will Knight
人工智能代理的演示可能令人印象深刻,但在现实生活中让技术可靠运行且不会出现烦人(或昂贵)的错误则是一个挑战。当前模型能够以几乎人类般的技能回答问题和进行对话,并构成了诸如OpenAI的ChatGPT和谷歌的Gemini之类的聊天机器人的核心。当给出简单命令时,它们还可以通过访问计算机屏幕以及键盘和触控板等输入设备来执行计算机上的任务,或者通过低级软件接口来完成。
Anthropic表示Claude在包括在内的几个关键基准测试中优于其他AI代理程序SWE-bench,该措施用于评估代理的软件开发技能,和操作系统世界,该指标衡量代理使用计算机操作系统的能力。这些说法尚未得到独立验证。Anthropic表示,Claude在OSWorld中正确执行任务的比例为14.9%,这远低于人类的平均水平(约为75%),但明显高于当前最佳代理——包括OpenAI的GPT-4(成功率为大约7.7%)。
Anthropic声称已有几家公司正在测试Claude的代理版本。这包括Canva,它正在使用它来自动化设计和编辑任务,和Replit,该服务使用模型进行编码任务。其他早期用户包括浏览器公司, 阿斯那,和Notion.
Ofir Press普林斯顿大学的博士后研究员,帮助开发了SWE-bench的人表示,具身AI往往缺乏长远规划的能力,并且在从错误中恢复时常常遇到困难。“为了证明它们是有用的,我们必须在艰难和现实的基准测试中取得优异的成绩,”他说,例如可靠地为用户计划各种旅行并预订所有必要的票务。
卡普兰注意到,Claude 已经能够相当出色地解决一些错误。例如,在尝试启动一个网络服务器时遇到致命错误的情况下,该模型知道如何修改其命令以解决问题。当它在浏览网页时陷入困境时,它还发现必须启用弹出窗口。
许多科技公司正在竞相开发人工智能代理,以争夺市场份额和影响力。事实上,可能不久之后,许多用户就会拥有自己的代理。微软已经向OpenAI投资了超过130亿美元,并表示它在这一领域取得了进展。测试可以使用Windows计算机的代理程序亚马逊,这家在Anthropic投入巨资的公司是探索代理如何推荐并最终购买商品为其客户。
索尼娅·黄是风投公司红杉的合伙人,专注于投资AI公司。她表示,在所有关于AI代理的热情背后,大多数公司实际上只是重新包装了基于AI的工具。在接受《连线》杂志采访时(在Anthropic新闻之前),她说目前该技术最适合应用于特定领域的工作,例如与编码相关的工作。“你需要选择这样的问题空间:如果模型失败了也没关系,”她说。“这些就是真正原生代理公司将出现的问题空间。”
关于代理型AI的一个关键挑战是,错误可能比乱码聊天机器人回复更加严重。Anthropic对Claude的功能施加了某些限制——例如,限制它使用个人的信用卡购买物品的能力。
普林斯顿大学的Press表示,如果错误能够被很好地避免,用户可能会学会以一种完全新的方式看待AI和计算机。“我对这个新时代非常兴奋,”他说。