作者:Nikhil
人工智能已经从处理原子任务发展到解决需要集成多个专业模型的复杂的现实问题。这种方法被称为人工智能管道,通过连接不同的模型来处理不同的数据输入和输出,从而实现无缝任务转换。这些管道支持复杂的应用程序,例如多语言视频配音、多模式内容审核和高级语音翻译。人工智能管道的日益复杂反映了对自动化解决方案的日益增长的需求,这些解决方案可以简化和简化各个领域中具有挑战性的计算任务。
解决复杂的计算挑战需要协调多个模型来处理问题的不同方面。当面临模糊的用户需求、定义不明确的任务参数和不匹配的数据模式时,当前的解决方案通常会出现不足。例如,多语言配音等计算任务需要仔细调整输入和输出,例如将音频转录与翻译模型以及文本到语音合成进行匹配。这种复杂性使得人工干预成为必要,从而减慢了进展并导致效率低下。
构建人工智能管道的现有方法通常依赖于静态框架和针对特定任务定制的预定义模型。虽然这些方法可以有效地处理孤立的问题,但它们缺乏适应性。经常需要手动调整来解决丢失的信息、确保语义对齐或解决因模式不匹配而产生的错误。此外,当前系统的刚性限制了它们满足不同用户查询的能力,在灵活性和准确性方面留下了巨大的改进空间。
aiXplain, Inc. 和 Los Gatos 的研究人员推出了一种名为 Bel Esprit 的新型人工智能框架来克服这些挑战。这种多代理系统有助于构建适合用户需求的可定制人工智能模型管道。Bel Esprit 具有专门的子代理,包括用于澄清用户查询的 Mentalist、用于管道组装的 Builder 以及用于错误检测和纠正的 Inspector。通过采用协作和迭代方法,该框架确保管道准确并符合用户意图。该系统被设计为动态工作,优化用户输入并优化为特定任务选择的模型。
Bel Esprit 是一个基于图的框架,其中节点代表人工智能功能,边缘代表数据流。Mentalist 子代理首先分析用户查询以澄清模糊的细节,并将其转换为全面的任务规范。然后,构建器构建一个初始管道,将任务分解为可管理的子图。例如,在多语言配音任务中为每种语言创建不同的分支。检查员检查管道是否存在结构和语义错误,确保与细化的用户需求保持一致。这个迭代过程利用了分支链等技术,其中较小的子图按顺序构建,从而促进模型重用并最大限度地减少错误。此外,Bel Esprit 集成了先进的大语言模型 (LLM) 以自动推理并确保无缝任务执行。
Bel Esprit 的表现证明了其在改变管道建设方面的巨大潜力。该系统使用精确匹配 (EM) 和图形编辑距离 (GED) 指标取得了可观的结果。整体EM率增长9.5%,表明管道完好率提高。GED 错误减少了 28.1%,显示了在减少生成管道和参考管道之间差异方面的改进。例如,当应用于多语言视频配音时,Bel Esprit 通过跨不同语言的分支重复使用自动语音识别 (ASR) 模型等 AI 节点来优化工作流程。这使得管道施工过程更加精简,错误更少。此外,Bel Esprit 有效地处理了不明确的用户查询,在用户输入缺乏清晰度的情况下,性能增强更加明显。即使在高度复杂的场景中,系统的迭代过程也能确保与用户意图保持一致。
Bel Esprit 显着推进了 AI 管道建设,解决了关键的模糊问题和容易出错的组装流程。其创新的多智能体协作、迭代细化和最先进的模型使其成为复杂计算任务的强大解决方案。Bel Esprit 通过自动化管道构建的关键阶段并确保语义准确性,为现场的适应性和精度树立了新的基准。该框架所展示的提高效率和处理复杂查询的能力凸显了其作为人工智能应用变革工具的潜力。
查看这 纸。这项研究的所有功劳都归功于该项目的研究人员。另外,不要忘记关注我们 叽叽喳喳并加入我们的 电报频道和 领英 集团奥普。不要忘记加入我们的 60k+ ML SubReddit。
ðě 趋势:LG AI Research 发布 EXAONE 3.5:三个开源双语前沿 AI 级模型,提供无与伦比的指令跟踪和长上下文理解,以实现卓越生成 AI 的全球领导地位……。