2026-03-10 00:24:51 · 英文原文

Andrej Karpathy 的新开源“自动研究”可让您每晚运行数百个人工智能实验 - 具有革命性的影响

周末，安德烈·卡帕蒂 (Andrej Karpathy)——一位颇具影响力的前 Tesla AI 负责人、联合创始人、OpenAI 前成员，创造了“vibe 编码”一词——发布于 X关于他的新开源项目，自动研究。

这不是一个完成的模型或大型企业产品：他自己承认这是一个简单的 630 行脚本在 Github 上提供根据宽松的、企业友好的 MIT 许可证。但我们的野心是巨大的：在人类睡觉的时候用人工智能代理实现科学方法的自动化。

他在 X 上表示：“我们的目标是设计你的智能体，使其无限期地取得最快的研究进展，而无需你自己的任何参与。”

该系统作为一个自主优化循环发挥作用。AI 代理会获得一个训练脚本和固定的计算预算（通常在 GPU 上为 5 分钟）。

它读取自己的源代码，形成改进假设（例如更改学习率或架构深度），修改代码，运行实验并评估结果。

如果验证损失以每字节位数（val_bpb)——改进，保持变化；如果没有，它会恢复并重试。在一夜之间，Karpathy 的特工完成了 126 项实验，将损失从 0.9979 降至 0.9697。

今天，Karpathy 报道称，在让代理调整“深度 = 12”模型两天后，它成功了处理了大约 700 个自主变更。

该代理发现了大约 20 项附加改进，可以完美地转移到更大的模型上。叠加这些变化，排行榜上的“GPT-2 时间”指标从 2.02 小时下降到 1.80 小时，Karpathy 认为该项目已经经过良好调整，效率提高了 11%。

卡帕蒂表示：“看到智能体端对端地完成整个工作流程，并且全部由智能体自己完成……真是太疯狂了。”他指出，智能体在注意力扩展和规范化方面发现了疏忽，而他在二十年的工作中手动错过了这些疏忽。

这不仅仅是一种提高生产力的方法；这是智力提炼方式的根本性转变。通过自动化代码的“科学方法”，Karpathy 将机器学习变成了一个以硅的速度而不是人类思维的速度运行的进化过程。

不仅如此，它还向 X 上更广泛的人工智能和机器学习社区表明，这种过程的应用范围远远超出计算机科学，可以应用到营销、健康等领域，以及基本上任何需要研究的领域。

自动研究广泛传播

反应迅速且病毒式传播，随着建设者和研究人员争先恐后地扩展“卡帕西环”，卡帕西的帖子在两天内获得了超过 860 万次浏览。

Varun Mathur，人工智能工具聚合平台 Hyperspace AI 首席执行官，采用单代理循环并将其分布在对等网络上。每个运行超空间代理的节点都成为一个自主研究人员。

3 月 8 日至 9 日晚上，超空间网络上的 35 个自主代理在完全无人监督的情况下进行了 333 项实验。结果是紧急战略的大师级课程：

硬件多样性作为一个特征：Mathur 指出，虽然 H100 GPU 使用“蛮力”来找到激进的学习率，但笔记本电脑上的仅 CPU 代理被迫变得聪明。这些“失败者”代理专注于初始化策略（如 Kaiming 和 Xavier init）和标准化选择，因为它们不能依赖原始吞吐量。
基于八卦的发现：使用 GossipSub 协议，代理实时分享他们的胜利。当一名代理人发现凯明初始化使损失下降了 21% 时，这个想法像数字病毒一样在网络上传播。几个小时之内，其他 23 名特工就将这一发现纳入了他们自己的假设中。
历史的压缩：在短短 17 小时内，这些智能体独立地重新发现了 ML 里程碑（例如 RMSNorm 和绑定嵌入），这些里程碑花了 Google Brain 和 OpenAI 等实验室的人类研究人员近八年的时间才正式确定。

每年进行 36,500 次营销实验，而不是 30 次

虽然机器学习纯粹主义者关注的是损失曲线，但商业世界却看到了一场不同类型的革命。Eric Siu，广告公司Single Grain创始人，将自动研究应用于营销的“实验循环”。

“大多数营销团队每年都会进行约 30 次实验，”Siu 在 X 上写道，“下一代将轻松地进行 36,500 多个实验。”他继续说道：

“他们会在睡觉时进行实验。目前的营销团队每年进行 20-30 次实验。如果他们“好”的话，也许是52。新的登陆页面。新的广告创意。也许是主题行测试。这被认为是“数据驱动的营销”。但下一代营销系统每年将进行 36,500 多次实验。”

Siu 的框架用营销资产（登陆页面、广告创意或冷电子邮件）取代了培训脚本。代理修改变量（主题行或 CTA），部署它，测量“肯定回复率”，然后保留或丢弃。

Siu 认为，这创建了一个与特定受众产生共鸣的“专有地图”——这条护城河不是由代码构建的，而是由实验历史构建的。“获胜的公司不会有更好的营销人员，”他写道，“他们将拥有更快的实验循环”。

社区讨论和“破坏”验证集

尽管热情高涨，GitHub 讨论揭示了一个社区正在努力应对如此快速、自动化的进步所带来的影响。

过度优化陷阱：研究员亚历克斯图尔提出了一个令人心酸的担忧：“你不担心启动这么多实验最终会‘破坏’验证集吗？”。令人担心的是，如果有足够的代理，参数将针对测试数据的特定怪癖而不是一般智能进行优化。

收益的意义: 用户萨米恩b质疑从 0.9979 下降到 0.9697 是否确实明显。Karpathy 的回答非常直接：“我们所做的就是优化每次计算的性能……这些都是真正的、实质性的收益”

人的因素：在 X 上，用户巫师, 加密货币平台增长主管雅日财经记录了他们在 Mac Mini M4 上的一夜运行，指出虽然 35 次实验中有 26 次失败或崩溃，但成功的 7 次表明“模型通过变得更简单而变得更好”。

这种“少即是多”的见解是在没有任何人为干预的情况下获得的。

未来：好奇心成为瓶颈

自动研究的发布预示着跨领域研究的未来，由于简单的人工智能指令机制，人类的角色从“实验者”转变为“实验设计者”。

随着 DarkMatter、Optimization Arena 和 NanoClaw 等工具的出现来支持这一群体，人工智能进步的瓶颈不再是“肉计算机”（卡帕蒂对人类大脑的描述）的编码能力，而是我们定义搜索约束的能力。

安德烈·卡帕蒂 (Andrej Karpathy) 再次改变了氛围。我们不再只是编码模型；而是编码模型。我们正在培育在睡觉时学习的生态系统。

关于《Andrej Karpathy 的新开源“自动研究”可让您每晚运行数百个人工智能实验 - 具有革命性的影响》的评论

暂无评论

发表评论

摘要

特斯拉前 AI 负责人 Andrej Karpathy 在 GitHub 上发布了一个名为 autoresearch 的开源项目，旨在使用 AI 代理实现科学方法的自动化。该项目是一个 630 行脚本，允许人工智能代理自主优化代码，从而在无需人工干预的情况下推动研究进展。在为期两天的测试中，代理进行了大约 700 项自主更改，实现了 11% 的效率提升。该项目引发了广泛的兴趣，Hyperspace AI 的 Varun Mathur 在点对点网络上分配循环，从而产生了实时知识共享和比人类团队更快地重新发现 ML 里程碑等紧急策略。Eric Siu 将这一概念应用于营销，建议未来的营销系统每年将进行数千次实验，强调更快实验循环的重要性。该项目提出了关于过度优化以及人类在定义人工智能研究限制方面的作用的问题。

OC