人工智能“代理”有什么用？

Intelligencer 的科技专栏作家一个此前，他是《纽约时报》的记者和评论家，也是《锥子报》的联合编辑。照片插图：Intelligencer；照片：盖蒂图片社

试图解析有关 OpenAI 未来计划的所有谣言是令人疯狂的——事实上，它似乎确实在推动

并非无关紧要数量人们有点疯狂。其中一些是其项目的自然结果：新的人工智能模型可以完成以前在软件中不可能完成的事情，并且很难判断特定的新突破是否属于“很酷的技巧— 或 — 随之而来的发展将永远改变我们所有人的生活。 — 这也是公司信息传递的结果，其内容和语气摇摆不定，倾向于或远离最重要的内容。有关该公司的耸人听闻的谣言和理论。某一时刻，首席执行官萨姆·奥尔特曼 (Sam Altman)发布谜语不确定他的公司是否已经实现了通用人工智能（AGI），这将迎来一个加速走向可怕的超级智能的时代或者～～～重要得多— 超出人们的预期。接下来是奥特曼和他的员工坚持认为炒作已经失控，我们“还处于早期”进入新的“范式”，在通往……某个地方的路上还有很多工作要做。

作为一种沟通策略，这显然是有效的，或者至少没有妨碍。OpenAI 背后聚集着大量资本，包括直接投资以及最近的联合基础设施项目并得到特朗普总统的认可。（2016 年奥特曼谈特朗普：“对美国来说是不可接受的威胁；”奥特曼谈特朗普本星期：“在很多方面对这个国家来说都是难以置信的。”）它依赖于一种分裂，这种分裂对于像 OpenAI 这样的研究主导型公司来说是很自然的，而且我认为，这种分裂是由该公司培养的——“前沿”——用以下术语表达：专业基准, 有希望的训练和推理方法, —推理模型，——以及随之而来的理论上的可能性，其本质上是不可预测的后果——以及公司的实际产品，每个人都可以尝试，并且数亿人都拥有这些产品。去年，尤其是过去几个月，前一类在 OpenAI 报道中占主导地位：基准下降;猜测潜在路径适用于 AGI 和 ASI；基础设施需求；以及也许独特地诱人的前景，致投资者，大规模劳动力自动化。与此同时，尽管公司的模型和产品不断更新，但与2022年ChatGPT的突然发布相比，OpenAI的主流用户体验已经逐步改善。

周四，OpenAI 试图重新调整其氛围和产品阵容，发布了操作员，——可以访问网络为您执行任务的代理——：

操作员可能会被要求处理各种重复的浏览器任务，例如填写表格、订购杂货，甚至创建表情包。使用与人类日常交互相同的界面和工具的能力扩大了人工智能的实用性，帮助人们节省日常任务的时间，同时为企业开辟新的参与机会。

OpenAI 在视频中发布了更长的演示：

这与 Anthropic 的“计算机使用”类似特征克劳德，这是去年宣布的。这是 OpenAI 迈向定义模糊的人工智能类别的早期一步 –代理人， - 旨在代表用户执行多步骤任务。代理和底层代理模型是行业的核心当下的痴迷，在很大程度上是因为它们代表着朝着醉人人工智能的推销雇员。首先是可以读取您的屏幕并为您预订酒店的软件。然后是完成整个工作的软件。这就是价值数万亿美元的创意。

OpenAI 和 Anthropic 一样，显然在管理方面进展顺利一些为用户提供基于浏览器的任务。但是网络的混乱现实，再加上可以代表用户进行购买或发起通信的软件的风险不断增加，让人想起构建软件的竞赛自动驾驶汽车。在这种情况下，快速的早期进展助长了一种迫在眉睫的错误感觉，随后是比预期更长的解决边缘案例、消除错误的过程以及多年的测试和更广泛的部署仍有待确定。据测试人员称，在早期版本中，Operator 的预览看起来很有趣——它在您的屏幕上运行！只需点击并输入即可！– 但也不可靠、缓慢且容易混淆。凯西·牛顿在平台游戏:

我在 Operator 上最令人沮丧的经历是我的第一次：尝试订购杂货。“帮我在 Instacart 上买杂货，”我说，希望它会问我一些基本问题。我住在哪里？我通常从哪家商店购买杂货？我想要什么类型的杂货？
它没有问我任何这些。相反，操作员在浏览器选项卡中打开 Instacart，并开始在爱荷华州得梅因的杂货店中搜索牛奶。
那时，我告诉接线员从旧金山当地的杂货店购买杂货。然后接线员尝试输入我当地杂货店的地址作为我的送货地址。
在一次超现实的交流中，我试图向计算机解释如何使用计算机，操作员寻求帮助。“位置似乎仍设置为得梅因，而我无法访问商店，”它告诉我。– 对于将位置设置为旧金山来查找商店，您有什么具体建议或偏好吗？

大量资金和人才专注于让这类事情真正发挥作用，大型人工智能公司都表现出了信心。不过，与自动驾驶汽车一样，一个可以自由漫游的软件，只要拥有你的身份（甚至只是拥有你的信用卡），就必须能够正常工作，或者至少不会出现灾难性的失败。全部时间。一个需要更多帮助而不是提供更多帮助的助手是不值得拥有的；搞砸的助理是一种责任。如果通过简化的界面购买杂货看似复杂，那么什么不是？

像这样的软件是否（或多快）变得更加可行（作为工具和产品）是一组问题。但如果这样的功能都有效的话会发生什么和变得广泛可用——如果投入人工智能的数千亿美元能够实现其目的呢？在 OpenAI 的视频示例中，操作员与计算机的交互方式与人（行动缓慢、容易混淆）几乎没有区别，在 OpenTable 上点击预订餐厅、购买杂货和浏览音乐会门票。

目前，Operator 是一项有限测试，可供每月支付 200 美元的 Pro 用户使用。但假设有数百万用户是能够部署代理来浏览网络或使用应用程序，或者从更一般的意义上讲，与企业或人员进行交互。他们周围的世界不会停滞不前。这在个人层面上很容易理解。与某人的人类助理交谈并不等同于与那个人交谈，即使您仍然可以从他们那里得到所需的东西。同样，通过电话树跳转与与人交谈不同，即使您最终仍能获得所需的信息。您正在进行交易，但没有引起注意。

在企业规模上思考这一点并不难，因为注意力同样重要，但也需要衡量和货币化。OpenTable 是一家长期致力于与机器人进行系统自动化和博弈的企业，如果它开始意识到许多用户通过代理预订餐桌，它会做出敌意反应吗？在 OpenAI 产品线的狭窄框架中，Operator 是新功能的早期演示。在它周围的网络的更广泛背景下——它需要操纵和交互的网络——它最明显的先驱是用于狙击、倒卖、运行指标和垃圾邮件的工具。据介绍，由于 Operator 通过可识别为 OpenAI 的浏览器运行，因此已经存在相关问题测试员丹·希珀：

缺点是 Reddit 等许多网站已经阻止 AI 代理浏览，因此操作员无法访问它们。在这种研究预览模式下，出于性能或法律原因，OpenAI 还会阻止 Operator 访问 Figma 等某些资源密集型网站或 YouTube 等竞争对手拥有的网站。

其他早期用户遭遇类似问题：

我试图通过 Operator 从 eBay 获得一些定价，因为我一直在寻找利用人工智能增强我的软件的方法。令我失望的是，eBay 已经将其标记为反机器人检测，这导致 GPT 迅速选择退出并回应称无法继续进行……

这种封锁并不是对“特工”到来的回应，确切地说，而是网站早期针对公司抓取人工智能训练数据采取措施的结果。网络已经对人工智能产生了相当强的免疫反应。它如何响应默认的机器人化用户？

但变暖的反应也会变得复杂。一个更顺从的电子商务合作伙伴可能会同意其客户使用代理进行购买，但它仍然会发现最终的情况奇怪的，至少。该公司可能会问 OpenAI：为什么我们不更直接地这样做呢？如果您希望您的用户能够通过聊天机器人订购产品，为什么我们不让您的软件以一种不易出错和浪费的方式浏览我们的产品列表呢？也许我们可以构建一个 API？为什么不一起工作，让您的产品真正发挥作用，而我们也不会落后呢？

你已经可以通过 Alexa 从亚马逊订购商品，这并不是因为它具有先进的代理人工智能功能，可以像人一样浏览平台，而是因为亚马逊做出了特殊的调整并构建了用户不可见的特殊工具，以将一种产品与另一种产品连接起来。这是软件与软件的对话，而不是人类与假装人类使用软件的软件对话。

OpenAI 的理想结果是一群其他公司争先恐后地帮助它的产品能够与 ChatGPT 尽可能深入地集成，并尝试预测和消除脆弱的“代理”可能会失败的方式（换句话说，将网络带入更类似于它自己的沙箱）。抛开人工智能员工宣传中，这就是该公司如何将其聊天机器人变成一个更通用的工具，一个“万能应用程序”或网络其他部分的聊天界面。（2023 年，他们尝试通过开设应用程序商店，他们以类似的方式进行广告宣传，但去掉了对“代理”一词的强调。没有——OpenAI 可以通过两种方式实现这一目标。一是客户有需求：他们使用 ChatGPT，Operator 可以工作，他们希望世界其他地方与 Operator 合作，即使其他公司对 OpenAI 持谨慎态度。这是一条艰难的道路，而干员目前的状态表明，即使有可能，这也将是一条漫长而坎坷的道路。这其他至少对于 OpenAI 来说，这种方式更简单、更有吸引力：提前宣布你的成功，坚持认为有能力的智能体只是时间和规模的问题，并建议每个人现在就排队，而不是稍后一起实现不可避免的目标，从而使你的实际任务更轻松，而实现真正广泛的代理能力则不太重要。类似的故事已经说服了投资者，更不用说新政府了。它对其他人有效吗？

人工智能“代理”有什么用？

OC

人工智能“代理”有什么用？

关于《人工智能“代理”有什么用？》的评论

发表评论

摘要

相关新闻

相关讨论