英语轻松读发新版了,欢迎下载、更新

有一个新的AI代理可以浏览网络并填写表格,而无需触摸鼠标

2025-05-10 02:00:20 英文原文

作者:Eric Hal SchwartzSocial Links NavigationContributor

Hugging Face AI Operator
(图片来源:拥抱的脸)
  • 拥抱的脸首次亮相了AI工具,用于您代表您浏览网络
  • 开放的计算机代理使用真实的Web浏览器来完成诸如获取指示或预订票的任务
  • 代理商及其开源演示可以查看屏幕上的内容,单击按钮,填写表格,然后通过人类(例如人类)逐步移动

Hugging Face介绍了越来越多的半独立的AI代理商,可以为人们提供在线差事。新的免费(如果有限)开放的计算机代理就像在您的网络浏览器中居住一个私人助理。

开放的计算机代理可以像您一样互动的一部分Smolagents倡议,就像您一样,处理无形的鼠标和键盘来完成请求。AI可以打开浏览器,将事物键入表单,单击按钮等等。要求它找到指示,然后去Google地图,输入原点和目的地,并像尽职尽责的数字司机一样向您展示路线。

您可以通过现场演示自己尝试。公平的警告,由于积压,其受欢迎程度正在引起一些延误和错误。

我们正在Smolagents启动计算机使用!ð¥³->随着视觉模型变得更有能力,它们能够为复杂的代理工作流提供动力。尤其是支持内置接地​​的QWEN-VL模型,即能够通过其坐标找到图像中的任何元素2025年5月6日

代理AI

开放的计算机代理是一种不同的想法的理念,导致了类似的工具Openai的操作员,,,,浏览器使用, 代理1.0和歌剧浏览器操作员。像这些工具一样,拥抱Face的AI代理就是成为活跃的参与者,而不是被动的信息来源。

像浏览器的使用一样,开放的计算机代理是开源的,这意味着任何人都可以看到它的工作原理并在其顶部建立,或者至少针对利基用例调整它。代理商是更灵活的东西的开始,而不是具有一百万个法律免责声明的成品。这也意味着演示正是演示,而不是抛光的包装。它可以弄错问题,并要求您跳入登录和验证测试。

预订门票,查看商店时间,进行搜索,查找指示并单击菜单都是很多人希望能够使用单个自然语言提示来做的事情。问Chatgpt如何找到便宜的航班是一回事。另一个观看工具的另一个转到旅行网站,滚动浏览列表,然后尝试单击现在。

它可能是有缺陷的,远非浮华,但是开放的计算机代理代表了一种AI的方法,它可能与现在无处不在的AI Image Generator一样常见。

报名参加突发新闻,评论,意见,顶级技术交易等等。

您可能还喜欢

埃里克·哈尔·施瓦茨(Eric Hal Schwartz)是Techradar的自由作家,拥有超过15年的经验,涵盖了世界与技术的交集。在过去的五年中,他担任VoiceBot.ai的首席作家,并处于报道生成AI和大型语言模型的领先优势。此后,他成为了生成AI模型产品的专家,例如Openai的Chatgpt,Anthropic的Claude,Google Gemini和所有其他合成媒体工具。他的经验贯穿了媒体的范围,包括印刷,数字,广播和现场活动。现在,他继续讲述人们想要的故事,需要听到有关迅速发展的AI空间及其对生活的影响的故事。埃里克(Eric)总部位于纽约市。

关于《有一个新的AI代理可以浏览网络并填写表格,而无需触摸鼠标》的评论


暂无评论

发表评论

摘要

Hugging Face推出了一个名为Open Computer Agent的开源AI工具,该工具使用真正的Web浏览器来执行预订票和获取说明等任务。作为其“ Smolagents”计划的一部分,代理通过模拟鼠标点击和键盘输入来与网站和应用程序进行交互。该演示可用于公共用途,但由于需求量很高,可能会遇到延误。