Microsoft 最近宣布公开预览 Logic Apps Standard 中用于文档解析和分块的内置操作。这些操作旨在简化生成式 AI 应用程序基于检索增强生成 (RAG) 的摄取。通过这些行动,该公司进一步投资于其低代码产品的人工智能功能。
据该公司称,通过这些开箱即用的操作,开发人员可以轻松获取文档或文件,包括结构化和非结构化数据,进入 AI 搜索,无需编写或管理任何代码。新的数据操作操作“解析文档”和“分块文本”将内容从 PDF、CSV 和 Excel 等格式转换为标记化字符串,并根据标记数量将其拆分为可管理的块。此功能适用于确保与 Azure AI Search 和 Azure OpenAI 的兼容性,这需要令牌化输入并具有令牌限制。
Microsoft 项目经理 Divya Swarnkar 写道:
这些操作基于 Apache Tika 工具包和解析器库构建,允许您解析多种语言的数千种文件类型,例如 PDF、DOCX、PPT、HTML 等。您可以无缝地读取和解析几乎任何来源的文档,而无需自定义逻辑或配置!
(来源:技术社区博客文章)
Wessel Beulink,云架构师Rubicon 在一篇关于新操作的博客文章中总结道:
Azure 逻辑应用文档解析和分块功能解锁了许多自动化可能性。从法律工作流程到客户支持,这些功能使企业能够利用人工智能进行更具创新性的文档处理。通过利用低代码 RAG 摄取,组织可以简化 AI 模型的集成,从而实现更顺畅的数据摄取、增强的可搜索性和更高效的知识管理。
在他的博客文章中,他提到了各种用例涉及将解析功能集成到人工智能工作流程中以简化文档处理,使人工智能驱动的聊天机器人能够提取和检索相关信息以提供客户支持,以及通过将数据分解为可管理的部分来改进知识管理和可搜索性。
此外,逻辑应用还提供了用于 RAG 摄取的即用型模板,从而可以轻松连接熟悉的数据源,例如 SharePoint、Azure 文件、SFTP 和 Azure Blob 存储。这些模板可以帮助开发人员节省时间并自定义工作流程以满足他们的需求。
数据科学硕士生 Kamaljeet Kharbanda 在一篇中等博客文章中表示,RAG 通过将深厚的知识库与大型语言模型(LLM)强大的分析能力。这种协同作用可以对复杂数据集进行高级解释,这对于在当今的数字生态系统中推动竞争优势至关重要。
低代码/无代码平台,例如 Azure AI Studio、Amazon Bedrock、Vertex AI 和 Logic应用程序使高级人工智能功能变得可用。除了这些云解决方案之外,LangChain 和 Llama Index 等工具还为通过代码密集型方法实现定制人工智能功能提供了强大的环境。