加入我们的每日和每周时事通讯,了解有关行业领先人工智能报道的最新更新和独家内容。了解更多
微软的全方位解析器正在做某事。
新的开源模型将屏幕截图转换为人工智能代理更容易理解的格式雷德蒙德本月早些时候发布,但就在本周,它成为了 AI 代码库 Hugging Face 上排名第一的热门模型(根据最近的下载量确定)。
这也是第一个这样做的代理相关模型,根据 X 上的帖子作者:Hugging Face 联合创始人兼首席执行官 Clem Delangue。
但 OmniParser 到底是什么?为什么它突然受到如此多的关注?
OmniParser 的核心是一个开源的生成式人工智能旨在帮助大型语言模型 (LLM),特别是像 GPT-4V 这样的视觉支持模型,更好地理解图形用户界面 (GUI) 并与之交互。
OmniParser 由 Microsoft 相对安静地发布,可能是使生成工具能够导航和理解基于屏幕的环境的关键一步。让我们来分析一下这项技术的工作原理以及它为何如此迅速地受到关注。
什么是 OmniParser?
OmniParser 本质上是一个功能强大的新工具,旨在将屏幕截图解析为视觉语言模型 (VLM) 可以理解并采取行动的结构化元素。随着法学硕士越来越融入日常工作流程,微软认识到人工智能需要在各种 GUI 之间无缝运行。OmniParser 项目旨在使人工智能代理能够查看和理解屏幕布局,提取文本、按钮和图标等重要信息,并将其转换为结构化数据。
这使得 GPT-4V 等模型能够理解这些界面,并代表用户自主行动,完成从填写在线表格到单击屏幕某些部分等各种任务。
虽然 AI 的 GUI 交互概念并不是全新的,但 OmniParser 功能的效率和深度非常突出。以前的模型经常在屏幕导航方面遇到困难,特别是在识别特定的可点击元素以及在更广泛的任务中理解它们的语义价值方面。Microsoft 的方法结合使用先进的对象检测和 OCR(光学字符识别)来克服这些障碍,从而形成更可靠、更有效的解析系统。
OmniParser 背后的技术
OmniParser 的优势在于它使用不同的 AI 模型,每个模型都有特定的作用:
- YOLOv8:通过提供边界框和坐标来检测按钮和链接等可交互元素。它本质上确定了可以与屏幕的哪些部分进行交互。
- BLIP-2:分析检测到的元素以确定其用途。例如,它可以识别图标是“提交”按钮还是“导航”链接,从而提供重要的上下文。
- GPT-4V:使用 YOLOv8 和 BLIP-2 的数据做出决策并执行单击按钮或填写表单等任务。GPT-4V 处理有效交互所需的推理和决策。
此外,OCR 模块从屏幕中提取文本,这有助于理解 GUI 元素周围的标签和其他上下文。通过将检测、文本提取和语义分析相结合,OmniParser 提供了一种即插即用的解决方案,不仅可以与 GPT-4V 配合使用,还可以与其他视觉模型配合使用,从而增强了其多功能性。
开源灵活性
OmniParser 的开源方法是其受欢迎的关键因素。它可与一系列视觉语言模型配合使用,包括 GPT-4V、Phi-3.5-V 和 Llama-3.2-V,使开发人员能够灵活地访问高级基础模型。
OmniParser 在 Hugging Face 上的出现也使其能够被广泛的受众所使用,从而吸引人们进行实验和改进。这种社区驱动的开发正在帮助 OmniParser 快速发展。微软合作伙伴研究经理 Ahmed Awadallah注意到开放协作是构建强大的 AI 代理的关键,而 OmniParser 是这一愿景的一部分。
AI屏幕交互之争
OmniParser 的发布是科技巨头之间争夺人工智能屏幕交互领域主导地位的更广泛竞争的一部分。最近,Anthropic 发布了一个类似的但闭源的功能,称为– 计算机使用 –作为 Claude 3.5 更新的一部分,该更新允许人工智能通过解释屏幕内容来控制计算机。苹果也加入了这场竞争雪貂-UI,针对移动用户界面,使他们的人工智能能够理解小部件和图标等元素并与之交互。
OmniParser 与这些替代方案的区别在于它致力于跨不同平台和 GUI 的通用性和适应性。OmniParser 不限于特定环境,例如仅 Web 浏览器或移动应用程序,它的目标是成为任何支持视觉的 LLM 与从桌面到嵌入式屏幕的各种数字界面进行交互的工具。
挑战和未来的道路
尽管 OmniParser 有其优势,但它并不是无限制。一项持续存在的挑战是准确检测重复的图标,这些图标通常出现在相似的上下文中,但具有不同的目的,例如同一页面内不同表单上的多个“提交”按钮。根据微软的文档,当前的模型仍然难以有效区分这些重复的元素,从而导致动作预测中可能出现失误。
此外,OCR 组件的边界框精度有时可能会出现偏差,特别是对于重叠文本,这可能会导致不正确的点击预测。这些挑战凸显了设计能够与多样化且复杂的屏幕环境准确交互的人工智能代理所固有的复杂性。
然而,人工智能社区乐观地认为,这些问题可以通过持续改进得到解决,特别是考虑到 OmniParser 的开源可用性。随着越来越多的开发人员致力于微调这些组件并分享他们的见解,该模型的功能可能会迅速发展。