Karpathy 的 Autoresearch 和改变一切的 Agent 循环

Shawn Tenam·2026年3月8日·1 分钟阅读·methodology

这个仓库

Andrej Karpathy 这周发布了 autoresearch。（X 上的公告）

三个文件。一块 GPU。一个智能体修改训练代码，运行5分钟实验，检查结果是否改善，保留或丢弃改动，然后循环。每小时约12个实验。一晚上约100个。零人工干预。

智能体不睡觉。不分心。不忘记三个实验前尝试过什么。它只是运行循环。

架构极度精简。

prepare.py 是锁定的。数据加载和评估的工具函数。智能体不能碰它。train.py 是智能体唯一能修改的文件。包含模型、优化器、训练循环。program.md 是人类为智能体写指令的地方。

最后一个是有意思的部分。你不再编程 Python 了。你编程一个 markdown 文件，告诉智能体该探索什么。智能体写 Python。

Karpathy 说："曾经，前沿 AI 研究是由肉体计算机完成的...那个时代已经过去了。"

autoresearch 本身是个演示。单 GPU，玩具模型，没有分布式训练。Karpathy 说他不确定会持续维护多久。

但它展示的模式是真实的。

有明确指标的自主智能体循环。 智能体有一个要优化的数字（验证集每字节比特数）。它有一个能修改的文件。它有固定的每次实验时间预算。它无限循环运行。

这个模式适用于不只是机器学习研究。任何你能定义明确成功指标并给智能体受限行动空间的领域，都可以用这种方式自动化。

我已经运行这个模式的一个版本好几个月了，只是没叫它 autoresearch。

递归漂移中的自读反馈循环以同样的方式工作。智能体从 SQLite 读取之前的3篇文章。研究语音风格。通过全文搜索检查话题重叠。生成新内容。对照60多个正则模式验证。给输出打分。如果低于阈值就重试。输出成为下一个循环的输入。

Karpathy 的循环：修改代码 --> 训练 --> 评估 --> 保留/丢弃 --> 重复。我们的循环：读取之前的输出 --> 生成 --> 验证 --> 打分 --> 重复。

相同的架构。不同的领域。两者都随时间复利增长，因为输出反馈为输入。

区别是 Karpathy 优化一个数值指标（每字节比特数）。我们优化语音一致性和内容密度。他的循环在 H100 上运行。我们的在 Mac Mini 上用 Claude Code 订阅运行。

三件事。

1. markdown 即编程的模式是真实的。 program.md 不是 README。它是实际的控制层。从写代码到为写代码的智能体写指令的转变，正在各个层面发生 - 从 Karpathy 的机器学习研究到内容管道到 GTM 自动化。

2. 约束是特性。 三个文件。一个指标。五分钟实验。智能体之所以有效，是因为问题空间足够窄，可以迭代。如果你给智能体无限范围，它会游离。如果你给它一个文件和一个数字，它就会优化。

3. 循环就是产品。 不是模型。不是训练代码。不是智能体框架。循环 - 假设、测试、评估、迭代 - 才是产生复利结果的东西。循环内的具体工具是可替换的。循环本身才是架构。

Karpathy 做了一个演示。背后的模式是基础设施。

如果你在构建智能体系统，研究约束设计比研究代码更重要。仓库是 MIT 许可的。模式是免费的。