为什么多智能体人工智能可以解决法学硕士无法解决的复杂问题

2024-11-02 19:05:00 英文原文

作者:Abhishek Gupta, Talentica Software

AI agents

图片来源: 图片来源:Venturebeat 与 DALL-E 3

加入我们的每日和每周时事通讯,了解有关行业领先人工智能报道的最新更新和独家内容。了解更多


ChatGPT 的引入带来了大语言模型(法学硕士)在科技和非科技行业得到广泛使用。这种受欢迎程度主要归因于两个因素:

  1. LLM作为知识库:LLM接受大量互联网数据的训练,并定期更新(即GPT-3、GPT-3.5、GPT-4、GPT-4o等);
  1. 新兴能力:随着法学硕士的成长,他们会表现出能力在较小的型号中没有发现。这是否意味着我们已经达到了人类水平的智能,我们称之为

通用人工智能(通用人工智能)?Gartner 定义AGI 作为人工智能的一种形式,具有理解、学习和应用跨广泛任务和领域知识的能力。通向 AGI 的道路很漫长,其中一个关键障碍是 LLM 训练的自回归性质,该训练根据过去的序列预测单词。作为人工智能研究的先驱之一,Yann LeCun指出法学硕士由于其自回归性质,可能会偏离准确的响应。因此,法学硕士有几个局限性:

  • 知识有限:虽然法学硕士接受了大量数据的培训,但他们缺乏最新的世界知识。
  • 有限推理:法学硕士的推理能力有限。正如 Subbarao Kambhampati 指出的 法学硕士是很好的知识检索者,但是不是好的推理者
  • 无动态性:法学硕士是静态的,无法访问实时信息。

为了克服法学硕士的挑战,需要更先进的方法。这就是代理变得至关重要的地方。

特工前来救援

的概念AI中的智能代理已经发展了二十年,实现方式也随着时间的推移而变化。今天,代理人是在法学硕士的背景下讨论的。简单地说,Agent就像应对LLM挑战的瑞士军刀:它可以帮助我们进行推理,提供从互联网获取最新信息的手段(解决LLM的动态性问题),并且可以自主完成任务。以LLM为骨干,智能体正式由工具、记忆、推理(或规划)和行动组件组成。

的组成部分一个绅士(图片来源:翁莉莲)AI代理的组成部分

工具使代理能够访问外部信息(无论是来自互联网、数据库还是 API),从而使他们能够收集必要的数据。

  • 记忆可以是短期的,也可以是长期的。
  • 代理使用暂存器内存来临时保存来自各种来源的结果,而聊天历史记录是长期记忆的一个例子。
  • Reasoner 允许代理系统地思考,将复杂的任务分解为可管理的子任务以进行有效的处理。
  • 动作:智能体根据其环境和推理执行动作,通过反馈迭代地适应和解决任务。ReAct 是迭代执行推理和行动的常用方法之一。

代理商擅长什么?

代理擅长执行复杂的任务,尤其是在复杂的任务中角色扮演模式,利用法学硕士的增强性能。例如,在撰写博客时,一个代理可能会专注于研究,而另一个代理则负责写作——每个代理都处理一个问题具体子目标。这种多智能体方法适用于许多现实生活中的问题。

角色扮演可以帮助代理专注于特定任务以实现更大的目标,通过清楚地减少幻觉定义部分提示 – 例如角色、说明和上下文。由于法学硕士的表现取决于结构良好的提示,因此各种框架将这一过程形式化。一个这样的框架,船员人工智能,提供了一种定义角色扮演的结构化方法,我们接下来将讨论这一点。

多代理与单代理

以使用单个代理的检索增强生成 (RAG) 为例。这是一种有效的方法,使法学硕士能够利用索引文档中的信息来处理特定于领域的查询。然而,单代理RAG 有其自身的局限性,例如检索性能或文档排名。多代理 RAG 通过采用专门的代理来进行文档理解、检索和排序,从而克服了这些限制。

在多代理场景中,代理以不同的方式进行协作,类似于分布式计算模式:顺序、集中、分散或共享消息池。CrewAI、Autogen 和 langGraph+langChain 等框架可以通过多代理方法解决复杂的问题。在本文中,我使用 CrewAI 作为参考框架来探索自主工作流管理。

工作流管理:多代理系统的用例

大多数工业流程都是关于管理工作流程,无论是贷款处理、营销活动管理,甚至是开发运营。实现特定目标需要顺序或循环的步骤。在传统方法中,每个步骤(例如,贷款申请验证)都需要人工执行繁琐而平凡的任务,即手动处理每个申请并在进入下一步之前对其进行验证。

每个步骤都需要该领域专家的意见。在使用 CrewAI 的多代理设置中,每个步骤都由由多个代理组成的工作人员处理。例如,在贷款申请验证中,一个代理可以通过驾驶执照等文件的背景调查来验证用户的身份,而另一个代理则验证用户的财务详细信息。

这就提出了一个问题:一个工作人员(按顺序或层次结构有多个代理)可以处理所有贷款处理步骤吗?虽然可能,但它使机组人员变得复杂,需要大量的临时记忆,并增加目标偏差和幻觉的风险。更有效的方法是将每个贷款处理步骤视为一个单独的工作人员,将整个工作流程视为按顺序或循环操作的工作人员节点图(使用 langGraph 等工具)。

由于法学硕士仍处于智能化的早期阶段,完整的工作流程管理不能完全自主。最终用户验证的关键阶段需要人机交互。例如,在船员完成贷款申请验证步骤后,需要人工监督来验证结果。随着时间的推移,随着人们对人工智能信心的增强,某些步骤可能会变得完全自主。目前,基于人工智能的工作流程管理起到辅助作用,简化繁琐的任务并减少整体处理时间。

生产挑战

将多代理解决方案投入生产可能会带来一些挑战。

  • 规模:随着代理数量的增长,协作和管理变得具有挑战性。各种框架提供可扩展的解决方案 - 例如,Llamaindex 采用事件驱动的工作流程大规模管理多代理。
  • 延迟:由于任务是迭代执行的,代理性能通常会产生延迟,需要多次 LLM 调用。由于隐含的护栏和网络延迟,托管法学硕士(如 GPT-4o)速度很慢。自托管法学硕士(具有 GPU 控制)在解决延迟问题方面非常有用。
  • 性能和幻觉问题:由于 LLM 的概率性质,代理性能可能会因每次执行而有所不同。输出模板(例如 JSON 格式)和在提示中提供充足示例等技术可以帮助减少响应可变性。幻觉问题可以进一步减少通过培训代理

最后的想法

作为吴恩达指出,代理是人工智能的未来,并将继续与法学硕士一起发展。多智能体系统将在处理多模式数据(文本、图像、视频、音频)和处理日益复杂的任务方面取得进展。虽然 AGI 和完全自主系统仍处于发展阶段,但多智能体将弥补目前 LLM 和 AGI 之间的差距。

阿布舍克·古普塔是首席数据科学家人才软件

数据决策者

欢迎来到 VentureBeat 社区!

DataDecisionMakers 是专家(包括从事数据工作的技术人员)可以分享与数据相关的见解和创新的地方。

如果您想了解前沿思想和最新信息、最佳实践以及数据和数据技术的未来,请加入我们的 DataDecisionMakers。

你甚至可以考虑 贡献一篇文章属于你自己的!

从 DataDecisionMakers 阅读更多内容

关于《为什么多智能体人工智能可以解决法学硕士无法解决的复杂问题》的评论


暂无评论

发表评论

摘要

ChatGPT 的引入因其广泛的知识库和新兴能力而在各个行业中普及了大型语言模型 (LLM)。然而,法学硕士面临着信息过时、推理能力有限以及无法访问实时数据等限制。为了应对这些挑战,正在开发智能代理,通过外部数据检索、存储系统、推理组件和动作执行工具来增强法学硕士的性能。代理可以在角色扮演模式和多代理框架(如 CrewAI、Autogen 和 langGraph+langChain)中更有效地管理复杂任务。这些进步旨在通过改进工作流程管理和处理规模、延迟和性能问题等生产挑战,缩小实现通用人工智能 (AGI) 的差距。