科技界对人工智能代理非常着迷。从销售代理到自主系统,Salesforce 和 Hubspot 等公司声称提供改变游戏规则的人工智能代理。然而,我还没有看到由大语言模型构建的令人信服的真正代理体验。市场充满了废话,如果 Salesforce 能做的最好的事情就是说他们的新代理的表现比出版社以前的聊天机器人更好,那就太令人失望了。
这是一个没有人问的最重要的问题:即使我们可以构建完全自主的人工智能代理,它们对用户来说有多少次是最好的?
让我们通过代理和助理的视角来使用旅行计划的用例。这个特定的用例有助于阐明代理行为的每个组成部分带来的内容,以及如何提出正确的问题来区分炒作与现实。最后,我希望您能自己决定真正的人工智能自主权是一项值得的正确战略投资,还是几十年来代价最高的干扰。
目录
对于什么才是真正的代理人,学术界和工业界都没有达成共识。我主张企业采用频谱框架,借鉴人工智能学术文献中的六个属性。在当前的人工智能领域,代理或非代理的二元分类通常没有帮助,原因如下:
通过采用基于频谱的方法,企业可以更好地理解、评估和传达人工智能系统不断发展的功能和要求。这种方法对于参与人工智能集成、功能开发和战略决策的任何人都特别有价值。
通过旅行社的示例,我们可以看到现实世界的实现如何落在不同属性的一系列代理行为上。大多数现实世界的应用程序都介于基础层和高级层之间。这种理解将帮助您就项目中的人工智能集成做出更明智的决策,并与技术团队和最终用户进行更有效的沟通。到最后,您将能够:
感知和解释其环境或相关数据流的能力。
基本:理解有关旅行偏好的文本输入并访问基本旅行数据库。
高级:集成和解释多个数据流,包括过去的旅行历史、实时航班数据、天气预报、当地活动时间表、社交媒体趋势和全球新闻源。
具有先进感知能力的客服人员可能会识别您过去旅行决策的模式,例如对不需要汽车的目的地的偏好。这些见解可以用来为未来的建议提供信息。
有效参与其运营环境的能力,包括用户、其他人工智能系统以及外部数据源或服务。
基本:采用有关旅行选择的问答形式,理解并回答用户查询。
高级:维护对话界面,要求澄清,为其建议提供解释,并根据用户偏好和上下文调整其沟通方式。
ChatGPT、Claude 和 Gemini 等 LLM 聊天机器人为交互性设定了很高的标准。您可能已经注意到,大多数客户支持聊天机器人在这方面都存在不足。这是因为客户服务聊天机器人需要提供准确的、公司特定的信息,并且通常与复杂的后端系统集成。他们无法像 ChatGPT 那样具有创造性或概括性,后者优先考虑参与性响应而不是准确性。
能够创建、维护和更新有关用户和关键交互的长期记忆。
基本:保存基本的用户首选项,并可以在以后的会话中调用它们。
高级:随着时间的推移,建立用户旅行习惯和偏好的全面档案,并不断完善其理解。
人工智能的真正持久性需要用户数据的读写能力。它是在每次互动后写出新的见解,并从这个扩展的知识库中阅读,为未来的行动提供信息。想想一位优秀的旅行社如何记住您对过道座位的喜爱或您将商务旅行延长为迷你假期的偏好。具有强大持久性的人工智能也会做同样的事情,不断构建和参考对你的理解。
ChatGPT 引入了选择性持久元素,但大多数对话实际上都是在空白状态下进行的。为了实现真正持久的系统,您需要建立自己的长期记忆,其中包括每个提示的相关上下文。
及时响应环境变化或传入数据的能力。做好这件事在很大程度上取决于强大的感知能力。
基本:当用户手动输入新的货币汇率时更新差旅费用估算。
高级:持续监控和分析多个数据流,以主动调整旅行行程和成本估算。
最好的人工智能旅行助手会注意到您目的地的酒店价格因重大活动而突然上涨。它可以主动建议替代日期或附近的地点,以节省您的钱。
真正的反应式系统需要大量的实时数据流,以确保强大的感知能力。例如,我们的高级旅行助理能够因政治起义而改变行程路线,而不仅仅是快速反应。它需要:
感知和反应之间的这种相互联系强调了为什么开发真正的反应式人工智能系统是复杂且资源密集型的。这不仅仅是快速响应,而是建立对环境的全面认识,从而实现有意义和及时的响应。
能够预测需求或潜在问题,并在没有明确提示的情况下提供相关建议或信息,同时仍将最终决定推迟给用户。
基本:建议所选目的地的热门景点。
高级:预测潜在需求并主动提供相关建议。
真正主动的系统会标记即将到来的护照到期日期,由于预计道路封闭而建议乘坐地铁而不是汽车,或者建议日历提醒以在受欢迎的餐厅可用时立即进行预订。
真正的主动性需要系统充分的坚持、感知和反应能力,以提出相关、及时和上下文感知的建议。
独立运作并在定义的参数内做出决策的能力。
自治程度可以表征为:
基本:对低价值资源的控制有限,做出对系统范围影响最小的决策,并在狭窄的预定义边界内运行。示例:智能灌溉系统根据土壤湿度和天气预报决定何时给花园中的不同区域浇水。
中间层:控制适度的资源,做出对系统部分有显着影响的决策,并在定义的操作边界内具有一定的灵活性。示例:零售连锁店的人工智能库存管理系统,决定多个商店的库存水平和分配。
高级:控制高价值或关键资源,做出对整个系统产生重大影响的决策,并在广泛的运营边界内进行运营。示例:一家科技公司的人工智能系统,用于优化整个人工智能管道,包括模型评估和价值 1 亿美元的 GPU 的分配。
最先进的系统将就内容(例如:在何处部署哪些模型)和如何(资源分配、质量检查)做出重大决策,做出正确的权衡以实现既定目标。
值得注意的是,决策内容和决策方式之间的区别可能会变得模糊,尤其是随着任务范围的扩大。例如,选择部署一个需要大量资源的更大模型就涉及到这两方面。整个复杂性的关键区别在于委托代理自主管理的资源和风险水平不断提高。
这个框架可以让我们对人工智能系统的自主性有细致入微的理解。真正的自治不仅仅是独立运作,还涉及决策的范围和影响。错误的风险越高,确保采取正确的保护措施就越重要。
不仅能够在定义的参数范围内做出决策,而且能够在认为有必要时主动修改这些参数或目标,以更好地实现总体目标。
虽然它为真正自适应和创新的人工智能系统提供了潜力,但它也带来了更大的复杂性和风险。这种程度的自主权目前主要是理论上的,并引发了重要的道德考虑。
不足为奇的是,科幻小说中大多数不良人工智能的例子都是跨越主动自主界限的系统或代理,包括《复仇者联盟》中的奥创、《黑客帝国》中的机器、《2001 年太空漫游》中的 HAL 9000,以及 WALL-E 中的 AUTO 等等。
主动自主仍然是人工智能发展的前沿,有望带来巨大好处,但需要深思熟虑、负责任的实施。事实上,大多数公司都需要多年的基础工作才能变得可行,你可以把关于机器人霸主的猜测留到周末。
当我们考虑这六个属性时,我想对我所说的人工智能助手和人工智能代理进行有用的区分。
人工智能代理:
人工智能助手
虽然业界尚未就官方定义达成共识,但此框架可以帮助您思考这些系统的实际影响。代理和助手都需要感知、基本交互性和持久性的基础才能发挥作用。
根据这个定义,Roomba 真空吸尘器更接近真正的代理,尽管是一个基本的代理。它不是主动的,但它确实在定义的空间内行使自主权,绘制自己的路线,对障碍物和污垢水平做出反应,并在没有持续人类输入的情况下返回码头。
GitHub Copilot 是一个非常强大的助手。它擅长通过提供上下文感知的代码建议、解释复杂的代码片段,甚至根据注释起草整个函数来增强开发人员的能力。但是,它仍然依赖于开发人员来决定向何处寻求帮助,并且由人类做出有关代码实现、架构和功能的最终决定。
代码编辑器 Cursor 开始以其主动的方式实时标记潜在问题,进入代理领域。如今,光标能够根据您的描述创建整个应用程序,这也更接近于真正的代理。
虽然这个框架有助于区分真正的代理和助手,但现实世界的情况更加复杂。许多公司都急于将他们的人工智能产品贴上代理的标签,但他们是否专注于正确的优先事项?重要的是要理解为什么这么多企业没有达到目标,以及为什么优先考虑不引人注目的基础工作是至关重要的。
像 Cursor 这样的开发者工具在推动代理行为方面取得了巨大成功,但如今大多数公司的成果并不理想。
编码任务有一个明确定义的问题空间,具有明确的成功评估标准(代码完成、通过测试)。还有以开源代码存储库的形式提供的大量高质量培训和评估数据。
大多数试图引入自动化的公司都没有任何接近正确数据基础的东西可供构建。领导层常常低估客户支持代理或客户经理所做的工作在多大程度上依赖于不成文的信息。例如,如何解决错误消息或新库存多久可以到货。正确评估人们可以询问任何问题的聊天机器人的过程可能需要几个月的时间。缺乏认知基础和测试捷径是愚蠢行为盛行的一些主要原因。
在向座席或助理投入资源之前,公司应该询问用户实际需要什么,以及他们的知识管理系统目前可以支持什么。大多数人还没有准备好为任何代理提供动力,并且许多人在感知和持久性方面还有大量工作要做,以便为有用的助手提供动力。
最近一些不成熟的人工智能功能被回滚的例子包括没有人愿意与之交谈的 Metas 名人聊天机器人,以及 LinkedIn 最近失败的人工智能生成内容建议实验。
Waymo 和 Roomba 通过使用人工智能简化现有活动来解决实际的用户问题。然而,它们的开发并非一朝一夕,都需要十多年的研发才能进入市场。当今的技术已经进步,这可能会让营销和销售等风险较低的领域更快地实现自治。然而,创建卓越品质的人工智能系统仍然需要大量时间和资源。
最终,人工智能系统的价值不在于它是否是真正的代理,而在于它如何有效地为用户或客户解决问题。
在决定在人工智能领域进行投资时:
清楚了解现有数据、系统和用户需求后,您可以专注于提供即时价值的解决方案。完全自主的人工智能代理的吸引力很大,但不要被炒作所吸引。通过专注于正确的基础支柱,例如感知和持久性,即使是有限的系统也可以在效率和用户满意度方面提供有意义的改进。
最终,虽然 HubSpot 和 Salesforce 都无法提供完全代理的解决方案,但对感知和持久性等基础的任何投资仍然可以解决直接的用户问题。
请记住,没有人会对洗衣机的自主性感到惊讶,但它确实可以解决问题并改善日常生活。优先考虑解决实际问题的人工智能功能,即使它们不是完全自主或代理的,也将带来立竿见影的价值,并为未来更复杂的功能奠定基础。
通过利用您的优势、缩小差距并根据实际用户问题调整解决方案,您将能够创建能够产生有意义的影响的 AI 系统,无论它们是代理、助手还是不可或缺的工具。