加入我们的每日和每周时事通讯,了解有关行业领先人工智能报道的最新更新和独家内容。了解更多
全面的新调查微软研究人员和学术合作伙伴的研究表明,由大型语言模型 (LLM) 驱动的人工智能代理控制图形用户界面 (GUI) 的能力越来越强,可能会改变人类与软件交互的方式。
该技术本质上使人工智能系统能够像人类一样查看和操作计算机界面——单击按钮、填写表格以及在应用程序之间导航。这些“GUI 代理”不需要用户学习复杂的软件命令,而是可以解释自然语言请求并自动执行必要的操作。
“这些代理代表了一种范式转变,使用户能够通过简单的对话命令执行复杂的多步骤任务,”研究人员写。– 他们的应用程序涵盖网络导航、移动应用程序交互和桌面自动化,提供变革性的用户体验,彻底改变个人与软件的交互方式。 –
将其视为拥有一位技术精湛的行政助理,可以代表您操作任何软件程序。您只需告诉助理您想要完成什么,他们就会处理实现该目标的所有技术细节。
企业人工智能助手的崛起改变了一切
各大科技公司已经竞相将这些功能融入到他们的产品中。微软的电力自动化使用法学硕士帮助用户创建跨应用程序的自动化工作流程。该公司的副驾驶AI助手可以直接基于文本命令控制软件。人类的电脑使用Claude 的功能使人工智能能够与网络界面交互并执行复杂的任务。据报道,谷歌正在开发贾维斯计划,一个人工智能系统,将使用 Chrome 浏览器执行基于网络的任务,例如研究、购物和旅行预订,尽管此功能仍在开发中并且尚未公开发布。
“大型语言模型,特别是多模式模型的出现,开创了 GUI 自动化的新时代,”论文指出。– 他们在自然语言理解、代码生成、任务泛化和视觉处理方面表现出了卓越的能力。 –
这代表了一个潜在的689亿美元的市场机会据 BCC Research 分析师称,到 2028 年,企业希望实现重复性任务的自动化,并使非技术用户更容易使用其软件。预计该市场将从 2022 年的 83 亿美元增长到这一数字,年复合增长率预测期内复合年增长率 (CAGR) 为 43.9%。
对企业的影响:人工智能自动化的挑战和机遇
然而,该技术在企业广泛采用之前仍然存在重大障碍。研究人员发现了几个关键限制,包括隐私问题当代理处理敏感数据时,计算性能受到限制,并且需要更好的安全性和可靠性保证。
“虽然它们对于预定义的工作流程有效,但这些方法缺乏动态、现实应用程序所需的灵活性和适应性,”该论文在谈到早期的自动化方法时指出。
研究团队提供了应对这些挑战的详细路线图,强调开发更有效模型的重要性可以在设备上本地运行,实施强有力的安全措施,并创建标准化的评估框架。
研究人员指出,“通过结合保护措施和可定制的操作,这些代理可以确保处理复杂命令时的效率和安全性”,并强调了该技术在企业就绪方面的最新进展。
对于企业技术领导者来说,LLM 支持的 GUI 代理的出现既代表了机遇,也代表了战略考虑。虽然该技术有望通过自动化显着提高生产力,但组织将需要仔细评估部署这些人工智能系统的安全影响和基础设施要求。
“GUI 代理领域正在朝着多代理架构、多模式功能、多样化的操作集和新颖的决策策略发展,”论文解释道。– 这些创新标志着朝着创建能够在各种动态环境中保持高性能的智能、适应性强的代理迈出了重要的一步。 –
行业专家预测,到2025年,至少60%的大型企业将试点某种形式的 GUI 自动化代理,这可能会带来巨大的效率提升,但也会引发有关数据隐私和工作转移的重要问题。
综合调查表明,我们正处于一个拐点,对话式人工智能界面可以从根本上改变人类与软件交互的方式,尽管要实现这一潜力需要基础技术和企业部署实践的不断进步。
“这些发展为能够处理复杂、动态环境的更通用、更强大的代理奠定了基础,”研究人员总结道,并指出未来人工智能助手将成为我们使用计算机的方式不可或缺的一部分。