作者:Russell Brandom
多年来,诸如光标,Windsurf和Github的Copilot之类的代码编辑工具一直是AI驱动软件开发的标准。但是,随着代理AI的增长越来越强大,Vibe编码起飞,微妙的转变已经改变了AI系统与软件交互的方式。
他们没有使用代码工作,而是越来越多地与安装在安装的系统的外壳中进行交互。这是AI驱动的软件开发的发生方式的重大变化,尽管有低调,但它可能对从这里进行的领域造成重大影响。
该终端是您记得90年代黑客电影中的黑白屏幕的最著名的 - 运行程序和操纵数据的非常老式的方式。它在视觉上并不像当代代码编辑器那样令人印象深刻,但是如果您知道如何使用它,它是一个非常强大的界面。尽管基于代码的代理可以编写和调试代码,但通常需要终端工具将软件从书面代码获取到可以实际使用的东西。
转移到航站楼的最明显迹象来自主要实验室。自2月以来,人类,DeepMind和OpenAI都发布了命令行编码工具(分别是Claude Code,Gemini Cli和Cli Codex),并且它们已经在公司最受欢迎的产品中。
这种转变很容易错过,因为它们在很大程度上与以前的编码工具相同的品牌运行。但是在引擎盖下,代理与在线和离线其他计算机互动的方式发生了真正的变化。有些人认为这些变化才刚刚开始。
我们的最大赌注是,有一个未来的LLM计算机相互作用是通过终端样界面的未来终端台。
基于终端的工具也正在自行融入其中,就像显着的基于代码的工具开始看起来不稳定一样。AI代码编辑Windsurf与高级管理人员的决斗收购已被撕裂由Google雇用还有剩下的公司通过认知获得–离开消费品的长期未来不确定。
同时,新的研究表明,程序员可能高估了传统工具的生产力提高。一项METR研究Windsurf的主要竞争对手测试光标Pro发现,尽管开发人员估计他们可以快速完成20%至30%的任务,但观察到的过程慢20%。简而言之,代码助理实际上是在为程序员花费时间。
这为像Warp这样的公司留下了开业,该公司目前在终端板凳上排名第一。扭曲的账单是一种代理开发环境,是IDE程序和Claude Code(例如Claude Code)之间的中间立场。
但是Warp创始人Zach Lloyd仍然看好终端,将其视为解决Cursor等代码编辑器将不在范围的问题的一种方式。
劳埃德说:``终端在开发人员的堆栈中都非常低,因此它是运行代理商最广泛的地方。”劳埃德说。
为了了解新方法的不同,查看用于测量它们的基准是有帮助的。基于代码的工具的重点是解决GITHUB问题,这是SWE基础测试的基础。SWE Bench上的每个问题都是GitHub的一个空旷问题,本质上是无效的代码。
模型迭代代码,直到找到有效的东西并解决问题为止。诸如光标之类的集成产品已经为问题构建了更复杂的方法,但是GitHub/Swe-Bench模型仍然是这些工具如何处理问题的核心:从损坏的代码开始并将其转换为有效的代码。
基于终端的工具可以更广泛的视图,超越了程序正在运行的整个环境。其中包括编码以及更面向DevOps的任务,例如配置GIT服务器或故障排除脚本为什么会运行。
在一个终端台面问题,指令给出了解压缩程序和目标文本文件,挑战了代理以反向工程师匹配的压缩算法。其他要求代理商从源构建Linux内核,但未提及代理必须下载源代码本身。解决问题需要程序员需要的那种牛头解决问题的能力。
码头的共同创造者亚历克斯·肖(Alex Shaw)说:``使终端床很难的不仅仅是我们给代理商提出的问题。我们将它们放入的环境。
至关重要的是,这种新方法意味着逐步解决问题 - 使代理AI如此强大的技能。但是,即使是最先进的代理模型也可以处理所有这些环境。Warp通过解决了一半以上的问题,在终端板凳上获得了高分,这是基准的挑战性以及仍需要做多少工作来解锁终端的全部潜力。”
尽管如此,劳埃德仍然认为,我们已经在基于终端的工具可以可靠地处理开发人员的非编码工作的那一刻 - 很难忽略的价值主张。
``如果您想到建立一个新项目,弄清楚依赖项并使之可运行的日常工作,那么Warp几乎可以自主地做到这一点。”劳埃德说。如果可以这样做,它将告诉你为什么。