现代企业拥有丰富的数据,这些数据涵盖了从文本文档和PDF到演示幻灯片,图像,音频录音等多种方式。想象一下,询问AI助手有关您公司的季度收益电话:助手不仅应该阅读笔录,而且还应在演示幻灯片中查看图表,并听到首席执行官的讲话。Gartner预测,到2027年40%的生成AI溶液将是多模式的(文本,图像,音频,视频),高于2023年的1%。这种转变强调了对业务应用的重要多模式理解如何成为如何成为重要的多模式理解。实现这一目标需要一个可以理解并结合文本,视觉效果和其他数据类型的多模式生成助手。它还需要一个代理体系结构,因此AI助手可以积极检索信息,计划任务并在工具调用方面做出决定,而不仅仅是对提示的被动响应。
在这篇文章中,我们探索了一种解决方案,该解决方案正是这样使用的亚马逊诺瓦专业人士这是AWS的多模式大语模型(LLM),作为中央编排者,以及强大的新型亚马逊基岩诸如亚马逊基岩数据自动化用于处理多模式数据。我们演示了诸如代理工作流程模式(例如检索增强产生(抹布),多工具编排,以及有条件的路由Langgraph启用人工智能和机器学习(AI/ML)开发人员和企业建筑师可以采用和扩展的端到端解决方案。我们介绍了财务管理AI助手的示例,该示例可以通过分析收益电话(音频)和演示幻灯片(图像)以及相关的财务数据提要来提供定量研究和扎根财务建议。我们还强调了如何在金融,医疗保健和制造等行业中应用这种模式。
代理工作流程的概述
代理模式的核心包括以下阶段:
- 原因–代理(通常是LLM)检查用户的请求以及当前上下文或状态。它决定下一步应该是直接答案还是调用工具或子任务以获取更多信息。
- 行为代理执行该步骤。这可能意味着调用工具或功能,例如搜索查询,数据库查找或使用Amazon Bedrock数据自动化的文档分析。
- 观察代理观察该动作的结果。例如,它读取从工具中返回的检索到的文本或数据。
- 环形``掌握了新的信息,再次确定任务是否完成,或者是否需要其他步骤。该循环一直持续到代理商确定可以为用户产生最终答案为止。
这种迭代的决策使代理可以处理一个提示,这些请求无法满足。但是,实施代理系统可能具有挑战性。他们在控制流程中引入更复杂的性能,而天真的代理可能会效率低下(进行太多的工具调用或不必要地循环)或在扩展时难以管理。这是Langgraph等结构化框架的地方。Langgraph使得可以定义具有定义明确的节点(例如报告作者或查询知识基础)和边缘(允许过渡)的潜在动作的有向图(或状态机)。尽管代理人的内部推理仍然决定要采取哪种途径,但Langgraph确保该过程仍然可以管理和透明。这种受控的灵活性意味着助手具有足够的自主权来处理各种任务,同时确保整体工作流程稳定且可预测。
解决方案概述
该解决方案是财务管理AI助理,旨在帮助分析师查询投资组合,分析公司并生成报告。其核心是亚马逊诺瓦(Amazon Nova),这是一家典型的推论LLM的LLM。Amazon Nova处理文本,图像或文档(例如收入呼叫幻灯片),并动态决定用于满足请求的工具。亚马逊Nova已针对企业任务和支持进行了优化函数调用,因此该模型可以以结构化的方式计划操作和呼叫工具。与大上下文窗口(在亚马逊Nova Lite和Amazon Nova Pro中最多300,000个令牌),它可以在推理时管理长文档或对话历史记录。
工作流由以下关键组成部分组成:
- 知识库检索``收益呼叫音频文件和PowerPoint文件均由Amazon BedRock Data Automation处理,这是一种托管服务,可以提取文本,转录音频和视频,并准备数据进行分析。如果用户上传PowerPoint文件,则系统将每个幻灯片转换为图像(PNG)以进行有效的搜索和分析,这是一种受生成AI应用程序启发的技术马努斯。亚马逊基岩数据自动化实际上是一种多模式的AI管道。在我们的架构中,亚马逊基岩数据自动化充当原始数据和代理工作流程之间的桥梁。然后亚马逊基石知识基地将这些从亚马逊基岩数据自动化提取的块转换为使用亚马逊泰坦文本嵌入v2并将这些向量存储在Amazon OpenSearch无服务器数据库。
- 路由器代理``它保持对话的记忆,解释用户的请求,并计划采取哪些措施来实现它。解决方案图中的内存和规划模块表明,路由器代理可以使用对话历史记录和思考链(COT)提示确定下一步。至关重要的是,路由器代理确定是否可以使用内部公司数据来回答查询,或者是否需要外部信息和工具。
- 多模式抹布代理对于与音频和视频信息相关的查询,亚马逊基岩数据自动化使用统一的API调用来从此类多媒体数据中提取见解,并将提取的见解存储在Amazon Bedrock知识库中。亚马逊诺瓦(Amazon Nova)使用亚马逊基础知识库(Amazon Bedrock Knowledge Bases)使用语义搜索来检索事实答案。这确保响应基于真实数据,从而最大程度地减少幻觉。如果亚马逊诺瓦(Amazon Nova)产生答案,则二级幻觉检查交叉引用对可信赖的消息来源的回答,以获取不支持的索赔。
- 幻觉检查(优质门)`为了进一步验证可靠性,工作流程可以在亚马逊Nova家族之外使用不同的基础模型(FM)进行后处理步骤,例如拟人化的Claude,Misstral或Meta s Llama,以对答案的忠诚进行评分。例如,在亚马逊NOVA产生响应之后,幻觉检测器模型或功能可以将答案与检索到的源或已知事实进行比较。如果检测到潜在的幻觉(不支持参考数据的答案),则代理可以选择进行额外检索,调整答案或升级为人类。
- 多工具协作``这种多工具协作使AI不仅可以找到信息,还可以在制定最终答案之前采取行动。这引入了多工具选项。主管代理可能会产生或协调多个特定工具的代理(例如,用于进行一般网络搜索的Web搜索代理,获取市场数据的股票搜索代理或公司财务指标或行业新闻的其他专业代理)。每个代理执行一个集中的任务(一个人可能会拨打API或在Internet上执行查询),并将发现返回给主管代理。Amazon Nova Pro具有强大的推理能力,使主管代理可以合并这些发现。这种多机构方法遵循将复杂任务分配在专家代理商之间的原则,从而提高了复杂查询的效率和可靠性。
- 报告创建代理架构中的另一个值得注意的方面是将亚马逊Nova帆布用于输出生成。亚马逊新星帆布是亚马逊Nova家族中的一个专业图像生成模型,但是在这种情况下,我们更将帆布的概念更像是象征性地表示结构化模板或格式生成的内容输出。例如,我们可以为助手填写的投资者报告定义一个模板:第1节:钥匙要点(子弹点),第2节:财务摘要(数字表),第3节:著名的报价等。代理可以通过向包含所需格式的系统提示提供系统提示来指导Amazon Nova填充此模板(这类似于给出布局的少量提示)。结果是助手不仅回答了临时问题,而且还可以产生全面生成的报告,看起来像人类分析师准备了它们,将文本,图像和对视觉效果的参考结合在一起。
这些组件在代理工作流程中精心策划。该解决方案不是固定的脚本,而是使用动态决策图(在笔记本解决方案中使用开源Langgraph库实现)来在步骤之间路由。结果是一位助手,感觉不像聊天机器人,更像是一位合作分析师的助手,可以解析收入录音,批评幻灯片甲板或起草人类干预最少的投资者备忘录。
下图显示了代理AI工作流的高级体系结构。Amazon Nova精心策划了各种工具,包括基础亚马逊数据自动化,用于文档和图像处理,以及检索的知识库,以满足复杂的用户请求。简而言之,我们在这里没有列出所有代码;这Github仓库包括一个完整的工作示例。开发人员可以将其运行以查看代理商的行动并使用自己的数据扩展。
多工具协作工作流程的示例
为了展示多工具协作代理工作流程,我们探讨了一个示例,说明问题解答的互动如何流经我们部署的多工具协作系统:
- 用户提示``在聊天UI中,最终用户提出了一个问题,例如今年XXX的股票表现是什么,与乘车行业同行相比,它如何?
- 代理初始响应•代理商(亚马逊Nova FM编排)收到了问题,并回答:
收到您的问题。路由到推理引擎
- 计划和工具选择代理商确定它需要以下内容:
- 公司的股票符号(xxx)
- 真正的时间股票价格和YTD变化
- 关键财务指标(收入,净收入,价格收入比)
- 行业基准(同行YTD绩效,平均收入增长)
- 计划使用工具调用执行执行代理调用工具执行以下操作:
- 查找股票符号:
Agent - websearchtool.lookupticker(“ xxx inc”)WebSearchTool代理:返回“ xxx”
- 使用检索的股票符号获取实际时间库存性能:
代理 - stockanalysistool。符号=“ xxx”,周期=“ ytd”)Stockanalysistool togent:{CurrentPrice:ytdchange:52wkrange:体积:}
- 使用检索的股票符号检索公司财务指标:
Agent – CompanyFinancialAlySistool.GetMetrics(“ Uber”)CompanyFinancialAlySistool -Agent:{RevenueQ4_2024:xxx b,NetIncomeQ4_2024:xxx M,Peratio:xxx}
- 使用检索的股票符号收集行业基准数据:
代理商界界analysistool.com(符号=“ xxx”,部门=“乘车”)工业助理的代理人:{AVGPEERYTD:AvgrevenueGrowth:}
- 验证循环代理运行验证循环:
代理:Validate()â€所有四个数据点都存在吗?•tricker:heady_check_mark:•库存性能:heady_check_mark:•财务指标:heady_check_mark:•行业基准:heady_check_mark:``所有设置都不需要重试。
- 查找股票符号:
如果缺少任何东西或遇到错误的工具,FM编排器会触发错误处理程序(最多三个重试),然后在失败的步骤中恢复计划。
- 合成和最终答案``代理使用Amazon Nova Pro来综合数据点并根据这些数据点生成最终答案。
下图显示了此多工具协作代理的流程图。
使用Amazon Bedrock进行可扩展的生成AI代理工作流的好处
该解决方案建立在亚马逊基石上,因为AWS提供了一个集成的生态系统,用于规模构建这种复杂的解决方案:
- 亚马逊基岩提供了像亚马逊Nova这样的顶级FM,并具有托管基础架构,无需配备GPU服务器或处理缩放缩放复杂性。
- 亚马逊基岩数据自动化提供了一个开箱即用的解决方案,以将文档,图像,音频和视频处理为可行的数据。亚马逊基岩数据自动化可以将演示幻灯片转换为图像,将音频转换为文本,执行OCR并生成文本摘要或字幕,然后将其索引在Amazon Bedrock知识库中。
- 亚马逊基石知识库可以使用非结构化数据存储嵌入,并使用相似性搜索支持检索操作。
- 除了Langgraph(如本解决方案所示),您还可以使用亚马逊基岩代理商开发代理工作流程。亚马逊基岩代理简化了工具流和动作组的配置,因此您可以声明地管理您的代理工作流程。
- 由Langgraph(Langchain的扩展)等开源框架开发的应用程序也可以通过AWS基础架构(例如亚马逊弹性计算云(亚马逊EC2)或亚马逊射手制造商实例,因此您可以为代理编排定义有向图的图形,从而使管理多步推理和工具链接变得毫不费力。
您不需要组装十几个不同的系统;AWS为生成AI工作流提供了一个集成网络。
考虑和自定义
该体系结构通过其模块化设计原理展示了出色的灵活性。系统的核心使用了Amazon Nova FMS,可以根据任务复杂性选择。亚马逊Nova Micro处理直接的任务,例如分类的延迟最小。Amazon Nova Lite管理着具有平衡性能的中等复杂的操作,而Amazon Nova Pro擅长于需要高级推理或产生全面响应的复杂任务。
解决方案的模块化性质(Amazon Nova,工具,知识库和Amazon Bedrock Data Automation)意味着每件可以交换或调整,而无需大修整个系统。解决方案架构师可以将此参考体系结构用作基础,并根据需要实现自定义。您可以通过无缝整合新功能AWS Lambda专门操作的功能,Langgraph编排可以使动态模型选择和复杂的路由逻辑。这种建筑方法确保系统可以在维持运营效率和成本效益的同时有机地发展。
将其带入生产需要周到的设计,但AWS提供可扩展性,安全性和可靠性。例如,您可以通过加密和访问控制确保知识库内容,将代理集成AWS身份和访问管理(IAM)要确保仅执行允许的操作(例如,如果代理可以访问敏感的财务数据,请验证其检查用户权限)并监视成本(您可以跟踪亚马逊基岩价格和使用工具;您可能会使用提供的吞吐量用于一致的大量使用)。此外,使用AWS,您可以使用相同的构建块从笔记本中的实验扩展到完整的生产部署(与适当的AWS基础架构集成(如亚马逊API网关或lambda,如果部署为服务)。
可以从该解决方案中受益的垂直行业
我们描述的架构非常笼统。简而言之
- 金融服务`在金融领域,该解决方案集成了多媒体抹布,以统一收益呼叫笔录,演示幻灯片(转换为可搜索的图像),并将实时市场供给到一个单个分析框架中。多代理协作使Amazon Nova能够协调诸如亚马逊基础数据自动化之类的工具,用于幻灯片文本提取,语义搜索监管文件和实时数据API,以进行趋势检测。这使该系统能够生成可行的见解,例如确定投资组合风险或建议行业重新平衡,同时自动化投资者报告或贸易批准的内容创建(以及人类监督)。通过模仿分析师的交叉引用数据类型的能力,AI助手将分散的输入转化为凝聚力的策略。
- 卫生保健•医疗保健工作流程使用多媒体抹布来处理临床笔记,实验室PDF和X射线,在同行评审的文献和患者音频访谈中进行接地响应。多代理协作在诸如Triage之类的方案中擅长:亚马逊NOVA解释症状描述,亚马逊基石数据自动化从扫描文档中提取文本,并集成API的API检查是否有药物互动,同时验证了针对受信任来源的输出。内容创建的范围从简洁的患者摘要(用左氧化治疗的严重肺炎)到用于复杂查询的基于证据的答案,例如汇总糖尿病指南。严格的幻觉检查和来源引用支持可靠性,这对于维持对医疗决策的信任至关重要。
- 制造业工业团队使用多媒体抹布来索引设备手册,传感器日志,工人音频对话和示意图,从而可以快速进行故障排除。多代理协作使亚马逊NOVA可以将传感器异常与手动摘录相关联,而亚马逊基岩数据自动化突出了技术图中的故障零件。该系统生成维修指南(例如,在示意图中替换阀门第4部分)或将历史维护数据背景化,从而弥合了资深专业知识与新技术人员之间的差距。通过将文本,图像和时间序列数据统一为可行的内容,助手减少了停机时间,并保留了机构知识。
这些示例突出了一个共同的模式:数据自动化的协同作用,强大的多模式模型和代理编排会导致解决方案,这些解决方案紧密模仿了人类专家的帮助。财务AI助理跨核对人物和解释,例如分析师,临床AI助手将图像和注释如勤奋的医生相关联,而工业AI助理助理回想起像老兵工程师的图表和日志。所有这些都是通过我们构建的基础架构使所有这些都成为可能的。
结论
仅处理一种输入类型的孤立的AI模型的时代正在闭嘴。正如我们所讨论的,将多模式AI与代理工作流相结合,可以解锁企业应用程序的新功能。在这篇文章中,我们演示了如何使用AWS服务构建这样的工作流程:我们使用亚马逊Nova作为具有多模式的,具有多模式,对代理友好型能力的核心AI编排,Amazon BedRock数据自动化将复杂数据(文档,slide,slide,audio and Inluctair for Amazon Bedrock知识基础)自动化自动化和索引(将Amazon Bedrock知识基础和概念(用于Amazon Bedrock and the Amazon base and the Grows and of Amaze of Agrance))langgraph)策划多步推理和工具使用情况。最终结果是一个AI助手,其运作与勤奋的分析师一样:研究,交叉检查多个来源并提供见解,但要以机器的速度和规模提供见解。该解决方案表明,建立一个精致的代理AI系统不再是一个学术的梦想,并且与如今的S AWS AWS技术具有实践性和可实现的作用。通过将Amazon Nova用作强大的多模式LLM和Amazon Bedrock数据自动化进行多模式数据处理,以及用于工具编排的框架,例如Langgraph(或Amazon Bedrock Agents),开发人员可以启动。这些托管服务或图书馆都处理了许多挑战(例如OCR,文档解析或对话编排),因此您可以专注于商业逻辑和特定领域的需求。
在bda_nova_agentic示例笔记本是实验这些想法的绝佳起点。我们鼓励您尝试一下,扩展并根据组织的需求进行调整。我们很高兴看到您将构建什么技术,这仅代表了当您结合方式和智能代理时可能的一小部分。
关于作者
朱莉娅·胡朱莉娅·胡(Julia Hu)是亚马逊网络服务(Amazon Web Services)的AI/ML解决方案建筑师,目前专注于亚马逊基地团队。她的核心专业知识在于代理AI,在那里她探讨了基础模型和AI代理的能力,以提高生成AI应用程序的生产力。她具有生成AI,应用数据科学和物联网体系结构的背景,她与客户合作,从初创企业到大型企业,设计和部署有影响力的AI解决方案。
Rui Cardoso是Amazon Web Services(AWS)的合作伙伴解决方案架构师。他专注于AI/ML和IoT。他与AWS合作伙伴合作,并支持他们在AWS中开发解决方案。当不工作时,他喜欢骑自行车,远足和学习新事物。
杰西·李·弗莱(Jessie-Lee Fry)是产品和首选市场(GTM)战略执行官,专门从事生成AI和机器学习,拥有超过15年的战略,产品,客户成功,业务发展,业务转型和战略合作伙伴关系的全球领导力经验。杰西(Jessie)定义并提供了广泛的产品和跨行业前往市场策略,推动了业务增长,同时操纵了市场复杂性和C-Suite客户群。杰西(Jessie)和她的团队在目前的职位上专注于帮助AWS客户在规模企业用例和采用框架上采用亚马逊基岩,与他们的生成AI旅程中的客户会面。