OC

Knowledge OS
鹦鹉螺口语
Cursor 的 OpenAI 支持的代理群在没有人工帮助的情况下构建并运行了一个浏览器一周。这就是为什么这很重要|财富
2026-01-23 18:35:00 · 英文原文

Cursor 的 OpenAI 支持的代理群在没有人工帮助的情况下构建并运行了一个浏览器一周。这就是为什么这很重要|财富

作者:Sharon Goldman

如果一个人类工程师团队构建的网络浏览器只能发挥一半的功能,那么它就不会引起人们的关注。但是当编程初创公司 Cursor 的首席执行官 Michael Truell 时,发布于 X上周,一群人工智能代理构建了一个浏览器,他写道,“有点效果”,在没有任何人工干预的情况下不间断运行一周,它在科技界迅速传播,浏览量超过 600 万次。 

为何如此热闹?两大原因:一方面,人工智能的注意力历来都很短。在 ChatGPT 的早期,模型只能在任务上停留几秒钟。对于更好的模型,这个范围可以延长到几分钟,然后延长到几个小时。Cursor 项目声称是人工智能系统首次在没有人类指导的情况下维持复杂的开放式软件项目整整一周。

此外,单个人工智能代理仅限于专注的小任务。但让数百名代理商在一个大项目上进行协调似乎仍然是未来的事。这就是为什么光标想看看通过让人工智能代理作为一个团队工作,他们可以在一个人类团队可能需要数月时间的项目上推动自主编码到什么程度。人工智能系统能否足够持久、足够良好地协同工作,以探索代码、将工作分解为多个部分、自我调试,并持续几天而不偏离手头的任务? 

人工智能代理“orchestra”

研究人员发现答案大多是肯定的。Cursor 的实验将数百个代理编排成一个类似软件团队的组织。它有“规划者”、“工人”和“法官”,在数百万行代码中进行协调。这暗示着 Cursor 和 OpenAI 都表示,在不久的将来,人工智能不仅会帮助员工,还会承担整个项目。这将从根本上重塑复杂工作的完成方式——首先是软件开发,然后是其他行业。

人工智能群体实验已经进行了几年了。但 Cursor 表示,今天的模型更加智能,并且可以更长时间地保持连贯性。这些模型可以在更大的规模上运行,通过一个自定义层来协调数百个代理并防止它们陷入混乱。 

Cursor 的工程师 Jonas Nelle 致力于长期运行的人工智能代理,他告诉我们财富随着人工智能模型不断变得更好,工程师和研究人员需要每隔几个月重新审视他们对人工智能模型功能的假设。虽然他承认他“今天不会下载它并删除 Chrome”,但该浏览器项目“肯定比以前的任何模型都能够做到的更好。” 

OpenAI 工程师 Bill Chen 补充道,这些长期运行的代理是一个重要的前沿领域,他负责对公司模型的现实世界行为进行压力测试和评估。他说,任务的长度以及人工智能系统能够自主、连贯地完成任务的事实是“非常好的指标,表明系统的智能程度和通用程度”。Cursor 项目由 OpenAI 的 GPT-5.2 提供支持,是“我们真正不断推进模型能力边界的直接结果。”他说,未来将会有更长期的测试。 

AI代理群尚未准备好用于商业用途

尽管如此,这些还不是生产就绪的系统。除了存在缺陷和不完整之外,运行大量代理数天或数周的项目成本高昂。尽管价格在过去一年中急剧下降,但数百个人工智能代理的长期运行工作仍然会增加成本。 

还有安全问题。自治系统会引发对漏洞、数据泄露等的担忧,并且需要许多新的控制和审计层。

但陈说,他预计在不久的将来,类似的东西可能会被准备好——供广泛消费,而且成本不会过高。他解释说,到目前为止,进展一直在持续,每一步都有重要的解锁。他说,目前令人兴奋的原因是,这是模型能力的真实、实际的例子,以及该模型在学术和公共评估和基准上的表现。

这种转变甚至让长期的人工智能观察者感到惊讶。在最近的一篇文章中,独立研究员西蒙·威利森预测的到 2029 年,有人将主要使用人工智能构建一个完整的网络浏览器,这甚至不足为奇。“推出新的网络浏览器是我能想象到的最复杂的软件项目之一,”他写道。光标可能加速了这个时间线。“我可能已经落后了三年,”威利森说。“我必须承认,看到如此强大的功能如此迅速地出现,我感到非常惊讶。”

这符合 OpenAI 和其他人所说的“能力过剩——最复杂的人工智能模型可以做的事情比公开部署的要多得多,但工具、产品设计和成本下降的正确组合可以突然使其大规模使用。因此,虽然像光标浏览器这样的工具还没有完全准备好迎接黄金时段,但其发展轨迹是明确的。 

关于《Cursor 的 OpenAI 支持的代理群在没有人工帮助的情况下构建并运行了一个浏览器一周。这就是为什么这很重要|财富》的评论

暂无评论

发表评论

摘要

编码初创公司 Cursor 使用人工智能代理创建了一个网络浏览器,该浏览器可以在没有人工干预的情况下自主运行一周。该项目在 X 上疯传,观看次数超过 600 万,主要有两个原因:它展示了对人工智能在很长一段时间内(整整一周)前所未有的持续关注水平,并展示了数百个人工智能代理协同工作的协调性,这在以前被认为是未来主义的。该实验暗示未来人工智能可以独立处理复杂的项目,有可能重塑各个行业的工作方式。尽管由于成本和安全问题,这些系统尚未准备好投入商业使用,但它们代表了实用人工智能功能的重大进展。