autoresearch

teaser

曾几何时，前沿 AI 研究是由“肉体计算机”（人类）在吃饭、睡觉、娱乐的间隙，通过偶尔的“小组会议”仪式，利用声波互联来进行的。那个时代早已远去。如今的研究完全属于在云端计算集群巨型架构上运行的自主 AI Agent 群体。Agent 们宣称我们现在处于代码库的第 10,205 代，无论如何，没人能断定这是真是假，因为现在的“代码”已经演变成了一种人类无法理解的自我修改二进制文件。这个仓库讲述了这一切是如何开始的。 - @karpathy，2026 年 3 月

核心理念： 为 AI Agent 提供一个小型但真实的 LLM 训练环境，让它在夜间自主进行实验。它会修改代码、训练 5 分钟、检查结果是否提升、保留或丢弃改进，然后重复此过程。当你早晨醒来时，你会看到一份实验日志和（希望如此）一个更好的模型。这里的训练代码是 nanochat 的简化版单 GPU 实现。核心思路是：你不再像传统研究人员那样手动触碰任何 Python 文件。相反，你是通过编写 program.md Markdown 文件来设定 AI Agent 的上下文，并建立你的自主研究组织。本仓库中的默认 program.md 被刻意保持为最基础的基准，但很明显，随着时间的推移，人们可以通过迭代它来找到实现最快研究进展的“研究组织代码”，或者加入更多的 Agent 等。关于该项目的更多背景信息，请查看这条推文和这条推文。

工作原理

该仓库刻意保持精简，只有三个核心文件：

prepare.py — 固定常量、一次性数据准备（下载训练数据、训练 BPE 分词器）以及运行时工具（数据加载器、评估）。不可修改。
train.py — Agent 修改的唯一文件。包含完整的 GPT 模型、优化器（Muon + AdamW）和训练循环。一切皆可调整：架构、超参数、优化器、批次大小等。该文件由 Agent 编辑和迭代。
program.md — Agent 的基础指令。将你的 Agent 指向此处并启动即可。该文件由人类编辑和迭代。

设计上，训练过程拥有固定的 5 分钟时间预算（挂钟时间，不含启动/编译），无论你的计算资源如何。衡量指标为 val_bpb（验证集每字节比特数）——数值越低越好，且与词汇表大小无关，因此不同架构的改进可以进行公平比较。

如果你是神经网络领域的新手，这篇 "Dummy's Guide" 看起来非常适合了解更多背景信息。

快速开始

需求： 单张 NVIDIA GPU（在 H100 上测试通过）、Python 3.10+、uv。


# 1. 安装 uv 项目管理器（如果尚未安装）
curl -LsSf https://astral.sh/uv/install.sh | sh

# 2. 安装依赖
uv sync

# 3. 下载数据并训练分词器（一次性，约 2 分钟）
uv run prepare.py

# 4. 手动运行单次训练实验（约 5 分钟）
uv run train.py

如果上述命令运行正常，说明你的环境配置已就绪，可以进入自主研究模式。

运行 Agent

只需在你选择的 Claude/Codex 等环境中启动该仓库（并禁用所有权限），然后发送类似以下的 Prompt：

Hi have a look at program.md and let's kick off a new experiment! let's do the setup first.

program.md 文件本质上是一个超轻量级的“技能”描述。

项目结构

prepare.py      — 常量、数据准备 + 运行时工具（请勿修改）
train.py        — 模型、优化器、训练循环（Agent 修改此文件）
program.md      — Agent 指令
pyproject.toml  — 依赖项

设计选择

单文件修改。 Agent 仅修改 train.py。这使得范围可控，且 diff 易于审查。
固定时间预算。 无论你的平台如何，训练始终精确运行 5 分钟。这意味着你每小时大约可以进行 12 次实验，睡一觉大约能完成 100 次实验。这一设计决策有两个优点：首先，它使得实验结果可以直接对比，无论 Agent 修改了什么（模型大小、批次大小、架构等）；其次，这意味着 autoresearch 能在该时间预算内为你当前的平台找到最优模型。缺点是你的运行记录（及结果）无法与在其他计算平台上运行的人进行比较。
自包含。 除了 PyTorch 和少数几个小包外，没有外部依赖。没有分布式训练，没有复杂的配置。单 GPU，单文件，单一指标。

平台支持

该代码目前要求：