十六个 Claude AI 代理共同创建了一个新的 C 编译器
之中推动人工智能代理随着 Anthropic 和 OpenAI 本周都推出多代理工具,Anthropic 已经准备好展示其一些更大胆的 AI 编码实验。但与往常一样,在声称与人工智能相关的成就时,您会发现一些关键的警告。
周四,人类学家尼古拉斯·卡利尼 (Nicholas Carlini)发表了一篇博文描述了他如何在最少的监督下将公司的 Claude Opus 4.6 AI 模型的 16 个实例松散地设置在共享代码库上,并要求它们从头开始构建 C 编译器。
据报道,AI 模型代理在两周内进行了近 2,000 个 Claude 代码会话,花费了约 20,000 美元的 API 费用,生成了一个 100,000 行基于 Rust 的编译器,能够在 x86、ARM 和 RISC-V 架构上构建可启动的 Linux 6.9 内核。
Carlini 是 Anthropic’s Safeguards 团队的研究科学家,此前曾在 Google Brain 和 DeepMind 工作过七年,他使用了 Claude Opus 4.6 推出的一项新功能,称为“代理团队在实践中,每个 Claude 实例都在自己的 Docker 容器内运行,克隆共享的 Git 存储库,通过写入锁定文件来声明任务,然后将完成的代码推回上游。没有编排代理引导流量。每个实例都独立地确定了接下来最明显需要解决的问题并开始解决它。当出现合并冲突时,AI模型实例会自行解决。
由此产生的编译器,Anthropic 拥有发布在 GitHub 上,可以编译一系列主要的开源项目,包括PostgreSQL、SQLite、Redis、FFmpeg和QEMU。它在 GCC 折磨测试套件上达到了 99% 的通过率,并且在 Carlini 所说的“开发人员的终极试金石测试”中,编译并运行厄运。
值得注意的是,C 编译器对于半自主 AI 模型编码来说是近乎理想的任务:该规范已有数十年历史,定义良好,已经存在全面的测试套件,并且有一个已知良好的参考编译器可供检查。大多数现实世界的软件项目都不具备这些优势。大多数开发的困难部分不是编写通过测试的代码;而是编写可通过测试的代码。它首先要弄清楚测试应该是什么。