作者:By Yoav Shohamarchive page
Google最近揭幕了它所谓的新型代理体验的感觉就像是一个转折点。例如,在5月的I/O 2025活动中,该公司展示了一个数字助理,该数字助理不只是回答问题。它通过查找匹配的用户手册,找到YouTube教程,甚至致电当地商店询问零件,从而帮助您进行自行车维修的工作,从而帮助您进行自行车维修。这样的功能很快就会远远超出Google生态系统。该公司推出了一个名为Agent-Agent或A2A的开放标准,该标准旨在让来自不同公司的代理商相互交谈并共同努力。
愿景令人兴奋:像数字同事一样,智能软件代理,预订您的航班,重新安排会议,提交费用以及在幕后互相交谈以完成工作。但是,如果我们不小心,我们将在有机会带来真正的好处之前将整个想法脱轨。与许多技术趋势一样,在现实之前炒作的风险。当期望失控时,反弹就不会远远落后。
让我们从“代理本身”一词开始。目前,从简单的脚本到复杂的AI工作流程,它都被打磨了。没有共同的定义,这为公司销售基本自动化的空间有足够的空间,因为它更高级。这种代理商并不使客户感到困惑;它引起了失望。我们不一定需要一个严格的标准,但是我们确实需要对这些系统应该做什么,自主操作的工作方式以及它们的可靠性更清晰的期望。
可靠性是下一个大挑战。当今的大多数代理人都由大型语言模型(LLM)提供动力,这些模型产生了概率的反应。这些系统很强大,但它们也无法预测。他们可以弥补事情,脱离轨道或以微妙的方式失败,尤其是当他们要求完成多步骤任务,拉出外部工具并将LLM响应融合在一起时。一个最近的例子:自动化支持代理人告诉Cursor的用户,它是一个受欢迎的AI编程助理,他们无法在多个设备上使用该软件。有广泛的投诉和报告取消其订阅的报告。但事实证明该政策不存在。AI发明了它。
在企业设置中,这种错误可能会造成巨大损害。我们需要停止将LLM视为独立产品,并开始在其周围建立完整的系统,以说明不确定性,监视输出,管理成本以及为安全性和准确性而进行护栏。这些措施可以帮助确保遵守用户表达的要求,遵守公司有关获取信息,尊重隐私问题等的政策。一些公司,包括AI21(我共同创建并从Google那里获得了资金),已经朝着这个方向发展,将语言模型包装在更刻意的结构化体系结构中。我们的最新发布Maestro是为企业可靠性设计的,将LLM与公司数据,公共信息和其他工具相结合,以确保可靠的产出。
尽管如此,即使是最聪明的代理商,也不会在真空中有用。为了使代理模型起作用,不同的代理需要合作(预订旅行,检查天气,提交您的费用报告),而无需持续的人类监督。这就是Google的A2A协议所在的地方。这是一种通用语言,可以让代理人共享他们可以做的事情并分配任务。原则上,这是一个好主意。
实际上,A2A仍然不足。它定义了代理商是如何互相交谈的,但不是他们的实际含义。如果一个代理商说可以提供风条件,那么另一个代理商必须猜测这对于评估飞行路线上的天气是否有用。没有共享的词汇或上下文,协调就会变得脆弱。在分布式计算中,我们之前曾见过这个问题。按大规模解决它远非微不足道。
还有一个假设,即代理人自然是合作的。这可能会在Google或另一家公司的生态系统内部占据,但是在现实世界中,代理商将代表不同的供应商,客户甚至竞争对手。例如,如果我的旅行计划代理人要求您的航空公司预订代理商的价格报价,并且您的代理商会激励某些航空公司,那么我的代理商可能无法获得我最好或最不昂贵的行程。没有某种方法可以通过合同,付款或游戏理论机制对齐激励措施,因此无缝协作可能是一厢情愿的想法。
这些问题都不是无法克服的。可以开发共享语义。协议可以发展。可以教导代理商以更复杂的方式进行谈判和协作。但是这些问题无法解决自己,如果我们忽略了这些问题,那么“代理商”一词将走上其他过度的技术流行语。当他们听到时,一些CIO已经翻了个白眼。
这是一个警告信号。我们不希望对陷阱上的兴奋感,而只是让开发人员和用户以艰难的方式发现它们,并在整个努力上发展负面的观点。那真是可惜。这里的潜力是真实的。但是,我们需要将野心与周到的设计,清晰的定义和现实期望相匹配。如果我们能做到这一点,代理人将只是另一个过去的趋势。他们可能会成为我们如何在数字世界中完成事情的骨干。
Yoav Shoham是斯坦福大学的名誉教授,也是AI21实验室的共同创始人。他1993年关于以代理为导向的编程的论文获得了AI期刊经典纸奖。他是多基因系统:算法,游戏理论和逻辑基础,该领域的标准教科书。