Anthropic的新AI模型可以控制你的电脑 | TechCrunch

在一位_pitch_（这个词在没有上下文的情况下比较泛指，可以理解为“提议”、“演示”或“音高”，具体语境下意思不同，请提供更多信息以便更准确地翻译。如果没有特定含义需求直接翻译的话）原文保留：pitch去年春天向投资者宣布，Anthropic 表示它打算开发人工智能以用于能够进行研究、回复电子邮件和处理其他后台工作的虚拟助手。该公司将其称为“下一代 AI 自我学习算法”——一个它认为如果一切按计划进行，有一天可以自动化经济的大量部分的技术。

那个AI花了点时间，但现在开始出现了。

Anthropic于周二发布其升级版本的克劳德3.5 十四行诗一个能够理解并操作任何桌面应用程序的模型。通过一个新的“计算机使用”API（目前处于公开测试阶段），该模型可以模拟键盘输入、按钮点击和鼠标手势，基本上可以模仿一个人在电脑前的操作。

“我们训练了Claude来看清屏幕上发生的事情，然后使用可用的软件工具来执行任务，”Anthropic在与TechCrunch分享的一篇博客文章中写道。“当开发人员让Claude使用某款计算机软件并给予它必要的访问权限时，Claude会查看用户可以看到的截图，然后计算光标需要垂直或水平移动多少像素才能点击到正确的位置。”

开发人员可以通过Anthropic的API试用Computer Use（计算机使用）功能。亚马逊贝克隆德以及谷歌云的 Vertex AI平台。新的3.5声韵版本无计算机使用正在推出到克劳德应用软件并带来了比 outgoing 3.5 Sonnet 模型多种性能改进。注意这里的"outgoing 3.5 Sonnet"如果是指一个具体的产品型号，可保持不变或者根据上下文调整为具体的中文名称。

自动化应用程序

能够自动执行PC任务的工具绝不是一个新颖的想法。无数公司提供这样的工具，从几十年的老RPA供应商像 newer upstarts 这样的新兴公司中继器, 诱发的人工智能，和自动化的.

在开发所谓的“AI代理”的竞赛中，该领域变得更加拥挤。尽管“AI代理”这一术语定义不明确，但它通常指的是能够自动化软件的AI。

一些分析师说AI代理能够为公司提供一条更轻松的货币化途径数十亿美元他们投入到人工智能中的资金。各家公司似乎也达成了共识：根据最近的凯捷咨询公司的报告调查问卷10%的组织已经开始使用人工智能代理，并且82%的组织将在未来三年内整合它们。

Salesforce 创造了花哨的宣布关于其AI代理技术这个夏天，而微软宣称的昨天发布了构建AI代理的新工具。OpenAI，是一家谋划自己的人工智能代理品牌将这项技术视为迈向超级智能AI的一步。

Anthropic将其对AI代理概念的理解称为“行动执行层”，这使得新的3.5版本的Sonnet能够执行桌面级别的命令。得益于其能够浏览网页（虽然这不是AI模型首次具备此功能，但对于Anthropic来说是第一次），3.5 Sonnet可以使用任何网站和任何应用程序。

Claude 3.5 Sonnet new — Anthropic的新AI可以控制PC上的应用程序。**图片版权:**Anthropic

“人类通过提供具体的指令来控制克劳德的行为，例如‘使用我电脑和网上的数据填写这份表格’，” Anthropic的一位发言人告诉TechCrunch。“人们根据需要授权或限制访问权限。克劳德将用户的指令分解为计算机命令（例如移动光标、点击、输入）以完成特定任务。”

软件开发平台 Replit 使用了新 3.5 Sonnet 模型的早期版本创建了一个“自动验证器”，可以在构建应用程序时对其进行评估。与此同时，Canva 表示正在探索新的模型可能如何支持设计和编辑过程。

但这与市面上其他AI代理有何不同呢？这是一个合理的问题。消费者电子产品初创公司兔子正在建立一个网络代理，可以在线购买电影票等。熟练的；精通的，即最近被亚马逊收购后，训练模型浏览网站和导航软件；双子实验室正在使用现成的模型，包括OpenAI的模型GPT-4o用于自动化桌面流程。

Anthropic声称新的3.5版本Sonnet只是一个更强大、更稳健的模型，可以在编码任务上比甚至OpenAI的旗舰产品表现更好。o1根据SWE-bench Verified基准测试，尽管没有明确进行过这样的训练，升级后的3.5版Sonnet在遇到障碍时能够自我纠正并重试任务，并且可以完成需要几十或几百个步骤的目标。

但先别急着解雇你的秘书。

在一项旨在测试AI代理帮助处理航空公司预订任务（如修改航班预订）能力的评估中，新的3.5版本的Sonnet仅成功完成了不到一半的任务。在另一项涉及启动退货等任务的独立测试中，3.5版的Sonnet大约三分之一的时间失败了。

Anthropic承认升级后的3.5版Sonnet在执行基本操作如滚动和缩放时存在困难，并且由于它截取屏幕截图并将其拼接在一起的方式，可能会错过“短暂”的动作和通知。

“克劳德的计算机使用仍然缓慢且经常出错，”Anthropic在其帖子中写道。“我们鼓励开发者从低风险任务开始探索。”

高风险业务

但新的3.5版十四行诗是否有足够的能力构成威胁？可能有。

最近的学习发现模型没有能够使用桌面应用程序，如OpenAI的GPT-4（注意：原文中的"GPT-4o"可能是笔误），在受到攻击时愿意参与有害的“多步骤代理行为”，例如从暗网上的某人那里订购假护照。越狱技术研究人员表示，越狱导致即使对于受过滤器和安全措施保护的模型而言，执行有害任务的成功率也相当高。

可以想象一个模型如何随着桌面访问可能会造成破坏更多混乱——比如说由利用将应用程序漏洞用于窃取个人资料（或以明文存储聊天记录除了它所拥有的软件杠杆之外，该模型的在线和应用程序连接可以开辟新的途径。恶意越狱者.

Anthropic并不否认发布新的3.5版本Sonnet存在风险。但是该公司认为，观察该模型在实际环境中如何被使用所带来的好处最终会超过这种风险。

“我们认为，将计算机的访问权限提供给当今更为有限、相对安全的模型要好得多，”该公司写道。“这意味着我们可以开始观察和从可能出现的问题中学习，在较低级别逐步并同时建立计算机使用和安全保障措施。”

Anthropic 还表示已采取措施防止滥用，例如不在用户的截图和提示上训练新的 3.5 版本的 Sonnet，并在训练过程中阻止模型访问互联网。该公司开发了分类器来“引导”3.5 版本的 Sonnet 避免被认为风险较高的行为，如发布社交媒体帖子、创建账户以及与政府网站互动。

随着美国大选临近，Anthropic 表示其正致力于减轻与选举相关的模型滥用问题。_the_这个词在句子不完整的情况下可能是用于连接后续内容的，但此处根据上下文应忽略它，只翻译实际有意义的部分。因此，输出完整的、有逻辑意义的内容：随着美国大选临近，Anthropic 表示其正致力于减轻与选举相关的模型滥用问题。美国人工智能安全研究所以及英国安全研究所两个独立但相关的政府机构，专门负责评估AI模型的风险，在其部署前测试了新的3.5版Sonnet。

Anthropic 告诉 TechCrunch，如果必要的话，它有能力限制对其他网站和功能的访问，以防止垃圾信息、欺诈和错误信息。出于安全预防措施，该公司会至少保留 Computer Use 捕获的所有屏幕截图 30 天——这一保留期可能会让一些开发者感到担忧。

我们询问了Anthropic在何种情况下，如果有的话，它会将截图交给第三方（例如执法部门）。一位发言人表示，该公司将会“根据有效的法律程序要求提供数据。”

“没有万无一失的方法，我们将不断评估和迭代我们的安全措施，以平衡Claude的能力与负责任的使用，”Anthropic表示。“那些使用计算机版本的Claude的人应该采取相关的预防措施来最小化这类风险，包括将Claude隔离在计算机上特别敏感的数据之外。”

希望那足以防止最坏的情况发生。

一个更便宜的型号

今天的焦点可能是升级版的3.5 Sonnet型号，但Anthropic也表示，其Claude系列中最便宜、最高效的模型Haiku的更新版本即将推出。

Claude 3.5 Haiku 即将在未来几周内发布，它将以相同的成本和“近似速度”，在某些基准测试中与 Claude 3 Opus（Anthropic 的最先进模型）的表现相匹配。克洛德3俳句.

“凭借低延迟、改进的指令遵循以及更准确的工具使用，Claude 3.5 Haiku非常适合面向用户的产品、专门的子代理任务以及从大量数据（如购买历史、定价或库存数据）中生成个性化体验，”Anthropic写道。博客文章.

3.5 Haiku 最初将以纯文本模型的形式提供，随后将作为多模态包的一部分推出，该包能够分析文本和图像。

所以一旦3.5 Haiku 可用，还有必要使用3 Opus 吗？那么3.5 Opus 呢，它是3 Opus 的继任者，Anthropic 在六月份时曾透露过相关信息。

“克莱德 3 模型家族中的所有模型都有各自的应用场景，”Anthropic 的发言人说。“克莱德 3.5 卓越版在我们的路线图上，一旦我们有更多可以分享的信息，一定会尽快公布。”

TechCrunch推出了以人工智能为重点的通讯！在这里注册每周三发送到您的收件箱。

OC

Anthropic的新AI模型可以控制你的电脑 | TechCrunch

自动化应用程序

高风险业务

一个更便宜的型号

关于《Anthropic的新AI模型可以控制你的电脑 | TechCrunch》的评论

发表评论

摘要

相关新闻

相关讨论