学术界开发的新基准测试表明,位于LLM的AI代理在标准CRM测试下表现出色,并且未能理解对客户机密性的需求。
Salesforce AI研究人员Kung-Hsiang Huang领导的团队表明,LLM Adents使用依靠合成数据的新基准进行了新的基准测试,在无需后续操作或更多信息的情况下,可以在一步中完成任务的成功率约为58%。
使用基准工具CRMARENA-PRO,当任务需要多个步骤时,该团队还显示LLM代理的性能下降到35%。
LLM代理商对机密信息的处理中强调了引起关注的另一个原因。“代理商表现出较低的机密性意识,尽管通过有针对性提示进行改进,但通常会对任务绩效产生负面影响”,但上个月末发表的论文说。
Salesforce AI研究小组认为,现有的基准未能严格衡量AI代理的功能或局限性,并且在很大程度上忽略了对他们识别敏感信息并遵守适当数据处理协议的能力的评估。
该研究部门的CRMARENA-PRO工具被提供了一个现实合成数据的数据管道,以填充Salesforce组织,该组织充当沙盒环境。代理商进行用户查询,并在API调用或对用户的响应之间做出决定以获取更多澄清或提供答案。
该论文说:“这些发现表明,当前的LLM功能与现实企业场景的多方面需求之间存在很大的差距。”
这些发现可能会担心开发人员和LLM驱动的AI代理商的用户。Salesforce联合创始人兼首席执行官Marc Benioff去年对投资者表示,AI代理人代表“一个很高的利润机会“对于SaaS CRM供应商而言,它可以使用AI代理商来享受效率节省的份额,以帮助从每个员工中获得更多工作。
在其他地方,英国政府表示将会到2029年的目标节省138亿英镑(187亿美元)具有数字化和效率驱动力,部分依赖于AI代理的采用。
AI代理很可能很有用,但是,组织应在证明其证明之前对银行业务保持警惕。®