“光彩和沮丧的闪光”：我让AI代理商过来

技术

订购外卖食品，撰写电子邮件，重新加工演示文稿：AI助手被提升为外包平凡的任务，以腾出时间来获得更多有趣的追求。那么，它们实际上对什么有益？有什么风险？

New Scientist. Science news and long reads from expert journalists, covering developments in science, technology, health and the environment on the website and the magazine.

我永远不会忘记几个月前坐下来吃饭的功夫鸡。并不是因为味道在送货骑手的背面吹走了20分钟，使我有些沮丧。令人难忘的是，我根本没有真正订购过。然而在我面前。一个

由Chatgpt-Maker Openai开发的AI助手称为运营商，代表我订购了食物。科技行业将这种助手称为“ AI代理商”，现在有一些商业可用。这些AI特工有可能通过执行平凡的任务来改变我们的生活，从回答电子邮件到购物和订购食物。微软首席财务官艾米·胡德（Amy Hood）据报道说在最近的内部备忘录中，代理商正在推动我们每个人的思考不同，工作方式不同，并且是对未来的瞥见。从这个意义上讲，我的功夫鸡是对未来的味道。一个

但是那未来会是什么样？为了找出答案，我决定将操作员和一个名为Manus的竞争对手产品，由中国初创公司开发蝴蝶效应，，，，通过他们的步伐。与他们一起工作是一个混杂的包：在光彩的闪光中，也有沮丧的时刻。在此过程中，我还瞥见了我们所面临的风险。因为完全拥抱这些工具需要将它们递给我们的财务状况和我们的社会联系清单，并信任他们按照我们想要的方式执行任务。我们准备好迎接AI代理的世界，还是很难忍受？一个

自2023年以来，我们生活在生成AI时代。使用大语言模型（LLM）并接受了主要从网页上刮除的大量数据的培训，生成AI可以创建原始内容，例如文本或图像响应日常语言给出的命令。可以公平地说，从专门针对该技术的媒体报道的数量来看，这种人工智会已经引起了很大的兴趣，并且已经大大改变了世界。一个

代理AI的兴起

代理AI承诺将进一步迈出一步。它是为您实际做某事而授权的。彼得·斯通在德克萨斯大学奥斯汀分校。在过去的几年中，我们中的许多人已经习惯了询问生成AI的想法，以获取附近可用的最喜欢的菜肴的信息，以及可以从中订购食物的餐厅的联系方式。但是请询问Agentic AI，“今晚我应该吃什么？它可以挑选出您认为您会喜欢的菜肴，如果有在线订单表格使用您的信用卡支付食物，请安排将其发送到您的家中，并让您知道何时期待交货。Stone：AI作为自动驾驶仪而不是副驾驶，这感觉就像是一种根本不同的经历。一个

用这种功能构建代理AI比看起来更棘手。LLMS仍然是表面下的驱动力，但是使用Agentic AI，他们将处理能力集中在他们可以做出的决策以及可以根据数字工具（包括Web浏览器和其他基于计算机的应用程序）所采取的实际行动上。当给出诸如订购晚餐或给我买些鞋子之类的目标时，AI特工制定了涉及这些数字工具的多步计划。然后，它监视并分析每个步骤的输出与最终目标的距离，并重新评估需要做什么。这个过程一直持续到代理人满意，它已经达到了最终目标或尽可能接近。一旦完成，该系统就会询问它是否成功实现了目标，AI聊天机器人中也存在一种反馈形式，称为“从人类反馈中学习”。一个

斯通（Stone）是他大学学习代理研究小组的创始人兼主任，他花了数十年的时间思考AI特工的可能性。他说，他们是感知环境，决定该做什么并采取行动的系统。用这些术语来看，可能会感觉好像AI代理人已经与我们在一起了多年。例如，IBM的深蓝色计算机似乎对现实世界棋盘上的事件做出了反应击败前世界国际象棋冠军加里·卡斯帕罗夫斯通说，在1997年。但是深蓝色不是代理AI。他说，这是决策，但这不是感知的，”他说。它依靠人类操作员代表其移动国际象棋，并将其告知卡斯帕罗夫的动作。AI代理不需要人类的帮助才能与现实世界互动。斯通说：'斯通说：'一个

这些代理AIS的早期版本现在可从许多科技公司获得，无论是Microsoft，Amazon还是Software Oracle，都提供自己的产品。我渴望看到他们在实践中的工作方式，但是这样做的不便宜：有些人会带来每年的订阅费，达到数千美元。我与OpenAI和蝴蝶效应联系，分别要求对其产品进行免费试用。两者都接受了我的要求。我的计划是将AIS用作个人助理，从事我的咕unt工作，以便我有更多的空闲时间。一个

A person working in a cafe on a laptop — AI代理商很快会照顾我们无聊的工作管理员吗？
英国kuan昌陈/千年图像

结果混合了。我本来要在几周内进行演讲，所以我将幻灯片甲板上传到了Manus的在线界面，并要求AI代理商进行重新格式化。马努斯似乎做得很好，但是在PowerPoint打开幻灯片甲板之后，我意识到它已将每一行文本都放在单独的文本框中，这意味着我自己做其他编辑会很烦人。但是，Manus确实在编译我想上传到App Store就绪格式的应用程序的代码方面做得更好，并使用各种工具及其远程计算机的命令行进行此操作。一个

转向操作员，我首先要求AI代理处理我的在线发票系统。就像一个善意但不是特别有用的实习生一样，它坚持以错误的方式填写表格：输入文本定义我正在为仅接收数字代码的盒子中开具的作品。我最终设法将其从习惯中脱颖而出，但是随后运营商将详细信息从我的“到发票列表”列表到系统时感到困惑，并有可能令人尴尬的结果。值得注意的是，它建议我向新科学家帐户团队要求一篇文章支付8001英镑。一个

然后，我给了操作员晋升，并要求其在报告这个故事方面提供帮助。我已经使用Chatgpt来确定可以评论代理AIS兴起的AI专家。我要求操作员代表我要求采访，向每个专家发送一封电子邮件。结果，我一直都不会看到这些结果，直到电子邮件已经发送，这使我内心畏缩``尤其是因为操作员决定不承认其在构图中的作用，给人的印象是我自己写了他们。AI代理使用的语言是同时天真又太正式了，断断续续的句子以半稳固的态度发射，这使我 - 很有可能是可能的受访者。操作员还没有提及一些关键信息，包括我的故事将由新科学家。这样，感觉很像是初级助手。操作员并不真正知道如何写电子邮件，而是犯了许多错误。一个

但是，在操作员的防御中，这些电子邮件至少在部分成功。例如，通过一封操作员的电子邮件，我与Stone联系了，他们大步走了AI-Sent的电子邮件。当我后来透露电子邮件是由操作员撰写的，另一位研究人员对这种方法表示赞赏。他们说的是严重的狗食！他们说的是测试实验性新产品的技术语，尽管他们拒绝为这个故事说话，因为他们正在从事的项目的资助者不会让他们。

AI代理真正为谁工作？

这些AI代理商背后的科技公司将这项技术呈现，就好像它是一位不懈的数字助理一样。但事实是，以我的经验，我们还在那里。尽管如此，假设技术将要改善，我们应该如何查看这些新工具？首先，值得思考的是所有炒作的商业激励措施。CarissaVâ©Liz在牛津大学。当然，AI代理在为您工作之前为公司工作，，，，从某种意义上说，它们是由具有财务利益的公司生产的。当公司本质上租赁AI代理商和您自己的利益之间存在利益冲突时，会发生什么？一个

我们已经可以在AI早期的代理商中看到此示例：OpenAI已与公司签署协议以在其系统上进行协作，因此，在搜索假日航班时，操作员可能更喜欢Skyscanner而不是竞争对手，或者首先转到金融时报如果您询问有关新闻的信息，美联社。Vâ©liz还建议用户考虑到技术访问我们的个人信息，然后再跃升为使用Agentic AI之前考虑隐私问题。例如，网络安全的本质是为不同的东西有不同的盒子，例如，使用唯一的密码在线银行和电子邮件中使用唯一的密码，并且永远不要将这些密码保存在单个文档中 - 但是要使用AI代理，我们必须在这些盒子之间分解障碍。她说：``我们给这些代理商是一个连接的系统的关键，这使它们变得非常不安全。”一个

这是我可以欣赏的警告。我不特别高兴的是，我与操作员的审判必然涉及将我的电子邮件和会计软件控制给AI经纪人的控制，而当我要求操作员代表我订购功夫鸡肉的菜时，我的不安水平达到了新的高度。在某一时刻，AI代理要求我将信用卡详细信息输入到计算机窗口中在操作员聊天机器人接口中弹出。我勉强这样做，即使我觉得自己没有完全控制窗户，我对操作员建立了巨大的信任。一个

此外，随着事情的影响，AI代理商已经获得了这种信任。根据定义，他们倾向于“访问很多工具，并与外界进行更多的互动”。Mehrnoosh Sameki，Microsoft的生成AI评估和治理的主要项目经理。这使他们容易受到某些类型的攻击。一个

天西李最近在马萨诸塞州的东北大学看了六个主要特工，研究了这些漏洞。她和她的团队发现特工可能会陷入相对简单的技巧。例如，在很少有人会阅读的隐私政策文本中，恶意演员可能会隐藏单击链接并插入信用卡详细信息的请求。李的团队发现，AI代理商不愿意执行该请求。她说，我认为这些代理商可能不符合人们的期望，有很多非常合理的担忧。”而且没有有效的机制可以让人们干预或提醒他们这种可能性并避免可能的后果。”一个

Openai拒绝对Li's Research提出的担忧发表评论。尽管我使用运营商的经验表明该公司意识到了信任与控制问题。例如，操作员似乎竭尽全力不断地通知我，以检查它是否希望与我的期望保持一致。然而，这种策略的不可避免的不可避免的是，这让我感到自己花了很多时间来微观管理代理商的工作，以至于我本人会更快地自己执行任务。一个

CUBA. Guardalavaca. Playa Pesquero. All inclusive resort. 2017. — 人工智能代理可以通过现实世界中的结果来执行任务，包括预订假期
马丁·帕尔

我们仍然在许多这些代理体验中（在]早期，我们仍然承认科林·贾维斯（Colin Jarvis），领导OpenAI部署的工程团队。贾维斯（Jarvis）说，目前的AI代理商远没有达到其全部潜力。他说：“它仍然需要大量工作才能获得可靠性。”一个

蝴蝶效应提出了类似的观点。当我与公司使用其代理商讨论我的问题时，我被告知“ Manus目前处于Beta阶段，我们正在积极努力优化和提高其性能和功能。”一个

可以说，科技公司一直在努力使代理AI工作已有数年了。例如，在2018年，Google认为它已经开发的AI代理的版本，称为双工，正在改变世界。该公司吹捧了双工呼叫餐厅和为客户预留餐桌的能力。但是，由于未知的原因，它从未作为具有广泛吸引力的日常工具起飞。一个

超越炒作

尽管如此，AI公司和科技分析师都表示，Agesic AI革命在拐角处。去年年底，代理AI关于财务收入电话的代理AI的数量是大51倍比在2022年第一季度相比。这里的兴趣不仅在于使用代理商协助人类雇员，而且还取代了他们。例如，包括Salesforce在内的公司帮助企业管理客户关系，是推出AI代理商出售服务一个 Stone认为该技术还没有为这种应用做好准备。

他说，现在有很多夸大。他说，在接下来的几年中，所有工作都消失了，或者自主代理正在做所有事情。要对最雄心勃勃的主张做好良好的态度。

热情可能很高，因为诸如ChatGpt之类的工具表现良好他们提高了人们对AI可以更普遍成就的期望。人们说：哦，如果他们能做到的话，他们可以做所有的事情，”斯通说。当然，我发现代理AI可以很好地工作。但是斯通说，我们不应该从一些有限的例子中推断出AI代理可以做到这一点。

反思时，我倾向于同意他的观点 - 至少直到我的经营者版本认识到我认为没有尖锐饼干的中国餐厅的订单才真正完整。”

主题：

OC

“光彩和沮丧的闪光”：我让AI代理商过来

技术

代理AI的兴起

AI代理真正为谁工作？

超越炒作

关于《“光彩和沮丧的闪光”：我让AI代理商过来》的评论

发表评论

摘要

相关新闻

相关讨论