微软的代理 AI 工具 OmniParser 在开源排行榜上名列前茅

2024-10-31 16:14:09 英文原文

作者:Bryson Masse

AI illustration of rocket blasting off releasing code exhaust against navy blue background

图片来源:VentureBeat 使用 OpenAI ChatGPT 制作

加入我们的每日和每周时事通讯,了解有关行业领先人工智能报道的最新更新和独家内容。了解更多


微软的全方位解析器正在做某事。

新的开源模型将屏幕截图转换为人工智能代理更容易理解的格式雷德蒙德本月早些时候发布,但就在本周,它成为了 AI 代码库 Hugging Face 上排名第一的热门模型(根据最近的下载量确定)。

这也是第一个这样做的代理相关模型,根据 X 上的帖子作者:Hugging Face 联合创始人兼首席执行官 Clem Delangue。

但 OmniParser 到底是什么?为什么它突然受到如此多的关注?

OmniParser 的核心是一个开源的生成式人工智能旨在帮助大型语言模型 (LLM),特别是像 GPT-4V 这样的视觉支持模型,更好地理解图形用户界面 (GUI) 并与之交互。

OmniParser 由 Microsoft 相对安静地发布,可能是使生成工具能够导航和理解基于屏幕的环境的关键一步。让我们来分析一下这项技术的工作原理以及它为何如此迅速地受到关注。

什么是 OmniParser?

OmniParser 本质上是一个功能强大的新工具,旨在将屏幕截图解析为视觉语言模型 (VLM) 可以理解并采取行动的结构化元素。随着法学硕士越来越融入日常工作流程,微软认识到人工智能需要在各种 GUI 之间无缝运行。OmniParser 项目旨在使人工智能代理能够查看和理解屏幕布局,提取文本、按钮和图标等重要信息,并将其转换为结构化数据。

这使得 GPT-4V 等模型能够理解这些界面,并代表用户自主行动,完成从填写在线表格到单击屏幕某些部分等各种任务。

虽然 AI 的 GUI 交互概念并不是全新的,但 OmniParser 功能的效率和深度非常突出。以前的模型经常在屏幕导航方面遇到困难,特别是在识别特定的可点击元素以及在更广泛的任务中理解它们的语义价值方面。Microsoft 的方法结合使用先进的对象检测和 OCR(光学字符识别)来克服这些障碍,从而形成更可靠、更有效的解析系统。

OmniParser 背后的技术

OmniParser 的优势在于它使用不同的 AI 模型,每个模型都有特定的作用:

  • YOLOv8:通过提供边界框和坐标来检测按钮和链接等可交互元素。它本质上确定了可以与屏幕的哪些部分进行交互。
  • BLIP-2:分析检测到的元素以确定其用途。例如,它可以识别图标是“提交”按钮还是“导航”链接,从而提供重要的上下文。
  • GPT-4V:使用 YOLOv8 和 BLIP-2 的数据做出决策并执行单击按钮或填写表单等任务。GPT-4V 处理有效交互所需的推理和决策。

此外,OCR 模块从屏幕中提取文本,这有助于理解 GUI 元素周围的标签和其他上下文。通过将检测、文本提取和语义分析相结合,OmniParser 提供了一种即插即用的解决方案,不仅可以与 GPT-4V 配合使用,还可以与其他视觉模型配合使用,从而增强了其多功能性。

开源灵活性

OmniParser 的开源方法是其受欢迎的关键因素。它可与一系列视觉语言模型配合使用,包括 GPT-4V、Phi-3.5-V 和 Llama-3.2-V,使开发人员能够灵活地访问高级基础模型。

OmniParser 在 Hugging Face 上的出现也使其能够被广泛的受众所使用,从而吸引人们进行实验和改进。这种社区驱动的开发正在帮助 OmniParser 快速发展。微软合作伙伴研究经理 Ahmed Awadallah注意到开放协作是构建强大的 AI 代理的关键,而 OmniParser 是这一愿景的一部分。

AI屏幕交互之争

OmniParser 的发布是科技巨头之间争夺人工智能屏幕交互领域主导地位的更广泛竞争的一部分。最近,Anthropic 发布了一个类似的但闭源的功能,称为– 计算机使用 –作为 Claude 3.5 更新的一部分,该更新允许人工智能通过解释屏幕内容来控制计算机。苹果也加入了这场竞争雪貂-UI,针对移动用户界面,使他们的人工智能能够理解小部件和图标等元素并与之交互。

OmniParser 与这些替代方案的区别在于它致力于跨不同平台和 GUI 的通用性和适应性。OmniParser 不限于特定环境,例如仅 Web 浏览器或移动应用程序,它的目标是成为任何支持视觉的 LLM 与从桌面到嵌入式屏幕的各种数字界面进行交互的工具。 

挑战和未来的道路

尽管 OmniParser 有其优势,但它并不是无限制。一项持续存在的挑战是准确检测重复的图标,这些图标通常出现在相似的上下文中,但具有不同的目的,例如同一页面内不同表单上的多个“提交”按钮。根据微软的文档,当前的模型仍然难以有效区分这些重复的元素,从而导致动作预测中可能出现失误。

此外,OCR 组件的边界框精度有时可能会出现偏差,特别是对于重叠文本,这可能会导致不正确的点击预测。这些挑战凸显了设计能够与多样化且复杂的屏幕环境准确交互的人工智能代理所固有的复杂性。 

然而,人工智能社区乐观地认为,这些问题可以通过持续改进得到解决,特别是考虑到 OmniParser 的开源可用性。随着越来越多的开发人员致力于微调这些组件并分享他们的见解,该模型的功能可能会迅速发展。 

VB日报

保持了解!每天在您的收件箱中获取最新消息

订阅即表示您同意 VentureBeat 的服务条款。

感谢您的订阅。查看更多VB 时事通讯在这里

发生错误。

关于《微软的代理 AI 工具 OmniParser 在开源排行榜上名列前茅》的评论


暂无评论

发表评论

摘要

微软本月发布的开源人工智能模型 OmniParser 已成为 Hugging Face 上最热门的模型。OmniParser 旨在将屏幕截图转换为 AI 代理可以理解并与之交互的格式,它使用高级对象检测、OCR 和语义分析来实现与图形用户界面 (GUI) 的无缝交互。它由用于元素检测的 YOLOv8、用于上下文理解的 BLIP-2、用于决策的 GPT-4V 以及用于文本提取的 OCR 模块组成。其开源特性使其能够灵活地跨各种视觉语言模型和平台,使其在主导人工智能屏幕交互的竞争中脱颖而出。尽管存在重复图标检测和边界框精度等挑战,但通过社区贡献快速改进的潜力是有希望的。