你需要知道什么
- 本月早些时候,微软推出了名为 Windows Agent Arena 的新基准测试,旨在提供一个在真实 Windows 操作系统环境中测试 AI 代理的平台。
- 早期基准测试显示,多模式人工智能代理的平均绩效成功率为 19.5%,而人类的平均绩效评级为 74.5%。
- 该基准是开源的,为深入研究提供了途径,可以显着促进人工智能代理的开发。然而,关键的安全和性能问题比比皆是。
随着出现生成式人工智能随着其广泛采用,该技术正在迅速从简单的文本和基于图像的提示转变。NVIDIA 首席执行官黄仁勋预测人工智能的下一阶段将由自动驾驶汽车和人形机器人主导,我们已经看到像特斯拉这样的大型科技公司在这方面取得了重大飞跃。
在过去的几周里,我们看到Salesforce 首席执行官马克·贝尼奥夫 (Marc Benioff) 对微软发起致命攻击声称它对人工智能行业造成了重大损害。“Copilot 就是新的微软 Clippy,”贝尼奥夫补充道。“它不起作用,也没有带来价值。”
这位 Salesforce 首席执行官还利用这个机会宣传该公司是“世界上最大的人工智能供应商”,有能力“每周处理数万亿笔人工智能交易”。如果你错过了,微软最近宣布Copilot Studio 很快将支持自主代理的创建。与 Salesforce 的 Agentforce 产品一样,微软的 Copilot 代理将帮助自动化 IT、营销、销售、客户服务和财务方面的任务。
贝尼奥夫认为微软的声明是一个信号:公司很恐慌。Salesforce 首席执行官补充道:“Copilot 的失败是因为微软缺乏数据和企业安全模型来创建真正的企业智能。”“Clippy 2.0,有人吗?”
更有趣的是,微软推出了一个新的基准测试,名为Windows 代理竞技场本月初。就上下文而言,该基准测试旨在促进 Windows 操作系统环境中的 AI 代理测试。因此,该基准测试可能会加快人工智能助手的开发,这些助手具有先进而复杂的功能,可以处理各种应用程序中的复杂任务。
据研究:
– 大型语言模型显示出作为计算机代理的巨大潜力,在需要规划和推理的多模式任务中提高人类生产力和软件可访问性。然而,衡量代理在现实环境中的性能仍然是一个挑战。
什么是 Windows Agent Arena?它在 AI 革命中有何重要意义?
“我们使用 AI 代理自动执行了 150 项任务,只需复制我们即可” - Microsoft AI - YouTube
如上所述,Windows Agent Arena 提供了一个平台,用于在真实的 Windows 操作系统环境中测试 AI 代理,包括 Microsoft Edge、Microsoft Paint、Clock、VLC 媒体播放器等应用程序。
根据微软的说法:
“我们采用 OSWorld 框架来跨代表性领域创建 150 多个不同的 Windows 任务,这些任务需要代理具有规划、屏幕理解和工具使用的能力。我们的基准测试也是可扩展的,可以在 Azure 中无缝并行化,以便在尽可能短的时间内进行完整的基准测试评估。20分钟。”
微软研究院开发了一种名为 Navi 的多模式代理来探索该框架的功能。AI 模型被要求在 Windows Agent Arena 基准测试中执行多项任务,包括将网站转换为 PDF 文件并将其放置在主屏幕上。共享的基准表明,多模式代理的平均绩效成功率为 19.5%,而人类的平均绩效评级为 74.5%。
虽然基准测试显示,目前使用人工智能自动执行某些任务可能有些困难,但它为人工智能代理的改进提供了可靠的平台。
隐私和安全仍然是大多数用户关注的问题。例如,微软备受争议的Windows Recall功能引起了大多数Windows用户的担忧,并引发了监管机构的审查。这家科技巨头突然召回了这一有争议的功能,以通过使其更加安全来微调体验。该功能应该很快就会发布,但用户可以卸载它。
同样,随着 Navi 等人工智能代理变得更加复杂,它们继续引起用户的关注。随着工具变得更加先进,他们将能够更多地访问通常保存用户个人凭据的应用程序。它可能会构成重大威胁,特别是因为黑客正在采用包括人工智能在内的复杂策略,这使得他们的攻击不那么明显。
Windows Agent Arena 是开源的,提供了更多研究机会,最终促进可靠且功能强大的模型的快速开发。在回应安全和性能问题时,该平台背后的微软研究人员告诉 Windows Central:
– 我们的计算机控制代理名为“Navi”,是开源的,我们的研究项目利用 OpenAI 的模型,例如 GPT-4V 以及 Microsoft 的 Phi3。虽然 Windows Agent Arena 和 Navi 都是开源的,但所使用的具体模型是独立的,并由各自的提供商维护。
人工智能系统性能与人类智能水平之间的差距仍然是全行业面临的重大挑战。我们正在努力通过持续的数据管理、微调和优化来解决这个问题,并在缩小这一差距方面取得稳步进展。
我们的负责任人工智能方法优先考虑道德准则,并将隐私和安全放在首位。我们确保人工智能代理避免未经授权的访问或信息泄露,并且用户保留理解、指导或覆盖人工智能操作的控制权。随着我们在这一领域的进步,我们的承诺依然坚定:打造尊重隐私、促进公平并为社会做出积极贡献的人工智能。”
别处,Anthropic 最近推出了一个名为“计算机使用”的新 API在公开测试版中。通过 API,开发人员可以“指导 Claude 像人们一样使用计算机——通过查看屏幕、移动光标、单击按钮和输入文本”。
ð黑色星期五早期最佳优惠ðª
- ð»Lenovo Yoga Slim 7x (X Elite) |百思买 999.99 美元(节省 200 美元!)
- LG 曲面 OLED 32(QHD,240Hz)|亚马逊 889.99 美元(节省 610 美元!)
- ð®亚马逊 Fire TV Xbox 游戏通行证捆绑包 |亚马逊 74.99 美元(节省 62 美元!)
- ð»Alienware m16 R2 (RTX 4060) |戴尔售价 1,399.99 美元(节省 300 美元!)
- ðºHP Omen 27qs(QHD,240Hz)|百思买 299.99 美元(节省 130 美元!)
- 适用于电视和显示器的 ð2.1 声道 Soundbar |沃尔玛 44.99 美元(节省 55 美元!)
- ð»HP OMEN Transcend 14 (RTX 4050) |HP 1,099.99 美元(节省 500 美元!)
- ð§森海塞尔 Momentum 4 ANC |亚马逊 274.95 美元(节省 125 美元!)
- LG C4 OLED 4K 电视(42 英寸)|百思买 999.99 美元(节省 400 美元!)