- 拥抱的脸首次亮相了AI工具,用于您代表您浏览网络
- 开放的计算机代理使用真实的Web浏览器来完成诸如获取指示或预订票的任务
- 代理商及其开源演示可以查看屏幕上的内容,单击按钮,填写表格,然后通过人类(例如人类)逐步移动
Hugging Face介绍了越来越多的半独立的AI代理商,可以为人们提供在线差事。新的免费(如果有限)开放的计算机代理就像在您的网络浏览器中居住一个私人助理。
开放的计算机代理可以像您一样互动的一部分Smolagents倡议,就像您一样,处理无形的鼠标和键盘来完成请求。AI可以打开浏览器,将事物键入表单,单击按钮等等。要求它找到指示,然后去Google地图,输入原点和目的地,并像尽职尽责的数字司机一样向您展示路线。
您可以通过现场演示自己尝试。公平的警告,由于积压,其受欢迎程度正在引起一些延误和错误。
我们正在Smolagents启动计算机使用!ð¥³->随着视觉模型变得更有能力,它们能够为复杂的代理工作流提供动力。尤其是支持内置接地的QWEN-VL模型,即能够通过其坐标找到图像中的任何元素2025年5月6日
代理AI
开放的计算机代理是一种不同的想法的理念,导致了类似的工具Openai的操作员,,,,浏览器使用, 代理1.0和歌剧浏览器操作员。像这些工具一样,拥抱Face的AI代理就是成为活跃的参与者,而不是被动的信息来源。
像浏览器的使用一样,开放的计算机代理是开源的,这意味着任何人都可以看到它的工作原理并在其顶部建立,或者至少针对利基用例调整它。代理商是更灵活的东西的开始,而不是具有一百万个法律免责声明的成品。这也意味着演示正是演示,而不是抛光的包装。它可以弄错问题,并要求您跳入登录和验证测试。
预订门票,查看商店时间,进行搜索,查找指示并单击菜单都是很多人希望能够使用单个自然语言提示来做的事情。问Chatgpt如何找到便宜的航班是一回事。另一个观看工具的另一个转到旅行网站,滚动浏览列表,然后尝试单击现在。
它可能是有缺陷的,远非浮华,但是开放的计算机代理代表了一种AI的方法,它可能与现在无处不在的AI Image Generator一样常见。