© 2026FindAgent  · @simprr
返回列表
k

karpathy/autoresearch

AI agents running research on single-GPU nanochat training automatically

⭐

59.2k

Stars

🔱

8.2k

Forks

👁

487

Watchers

📋

157

Issues

Python创建于 2026/3/6更新于 今天
在 GitHub 上查看
README
由 Gemini 翻译整理

autoresearch

teaser

曾几何时,前沿 AI 研究是由“肉体计算机”(人类)在进食、睡眠、娱乐之余完成的,偶尔通过一种叫“小组会议”的仪式,利用声波互联来同步信息。那个时代早已远去。现在的研究完全由自主 AI 智能体集群主导,它们运行在天空中庞大的计算集群超结构之上。智能体声称我们现在处于代码库的第 10,205 代,反正也没人能判断这是真是假,因为现在的“代码”已经演变成一种人类无法理解的自修改二进制文件。本仓库讲述了这一切是如何开始的。—— @karpathy,2026 年 3 月

核心理念: 为 AI 智能体提供一个小型但真实的 LLM 训练环境,让它彻夜进行自主实验。它会修改代码、训练 5 分钟、检查结果是否有改进,决定保留或丢弃,然后重复上述过程。当你早上醒来时,会看到一份实验日志和(希望如此)一个更好的模型。这里的训练代码是 nanochat 的简化单 GPU 实现。核心思想是:你作为研究员,不再像往常那样手动触碰任何 Python 文件。相反,你需要编写 program.md Markdown 文件,为 AI 智能体提供上下文,并建立你的“自主研究机构”。本仓库中的默认 program.md 故意保持最基础的基准状态,但显而易见,随着时间推移,你可以不断迭代它,从而找到能够实现最快研究进展的“研究机构代码”,或者向其中添加更多智能体等。关于此项目的更多背景信息,请参见这条 推文 和 这条推文。

工作原理

该仓库刻意保持简洁,实际上只有三个核心文件:

  • prepare.py — 固定常量、一次性数据准备(下载训练数据、训练 BPE 分词器)以及运行时工具(数据加载器、评估)。此文件不会被修改。
  • train.py — 智能体唯一可以编辑的文件。包含完整的 GPT 模型、优化器(Muon + AdamW)以及训练循环。一切皆可修改:架构、超参数、优化器、批大小(batch size)等。此文件由智能体进行编辑和迭代。
  • program.md — 给智能体提供的基准指令。让你的智能体参照此文件执行任务。此文件由人类进行编辑和迭代。

设计上,训练运行时间被锁定为 5 分钟的固定时长(时钟时间,不包括启动/编译),无论你的计算设备配置如何。衡量指标为 val_bpb(验证集比特每字节)——数值越低越好,且与词汇表大小无关,因此可以公平地比较架构更改。

如果你是神经网络领域的新手,这篇 "Dummy's Guide" 提供了非常不错的入门背景知识。

快速开始

要求: 单个 NVIDIA GPU(已在 H100 上测试)、Python 3.10+、uv。

# 1. 安装 uv 项目管理器(如果尚未安装)
curl -LsSf https://astral.sh/uv/install.sh | sh

# 2. 安装依赖
uv sync

# 3. 下载数据并训练分词器(一次性,约 2 分钟)
uv run prepare.py

# 4. 手动运行一次训练实验(约 5 分钟)
uv run train.py

如果上述命令运行正常,说明你的环境配置已就绪,可以进入自主研究模式了。

运行智能体

只需在此仓库中启动你的 Claude/Codex 或其他任何智能体(并禁用所有权限限制),然后你可以输入类似如下的提示词:

Hi have a look at program.md and let's kick off a new experiment! let's do the setup first.

program.md 文件本质上是一种极其轻量级的“技能”。

项目结构

prepare.py      — 常量、数据准备 + 运行时工具(不要修改)
train.py        — 模型、优化器、训练循环(智能体在此修改)
program.md      — 智能体指令
pyproject.toml  — 依赖项

设计选择

  • 单文件修改。 智能体仅能触碰 train.py。这使得范围可控且差异(diffs)易于审查。
  • 固定时间预算。 无论你的平台性能如何,训练始终严格运行 5 分钟。这意味着你每小时大约可以进行 12 次实验,在你睡觉时大约能进行 100 次实验。这个设计决策有两个优点:首先,无论智能体更改了什么(模型大小、批大小、架构等),实验结果都是直接可比的;其次,这意味着 autoresearch 能够在该时间预算内为你的平台找到最优模型。缺点是你的运行结果无法与其他在不同计算平台上运行的人进行比较。
  • 自包含。 除了 PyTorch 和少量小型软件包外,没有外部依赖。没有分布式训练,没有复杂的配置。一个 GPU,一个文件,一个指标。

平台支持

此代码目前要求:

贡献者
kdhmdhik
项目信息
默认分支master
License未指定
创建时间2026/3/6
最近更新今天
GAI 中文摘要

autoresearch 是一个旨在实现人工智能自主研究循环的框架,通过赋予 AI Agent 修改训练代码并进行实验的权限,让其在单卡 GPU 环境下自动迭代优化模型。该项目通过模拟自主研究工作流,解决人工手动调参效率低下的问题,实现全天候的自动化模型性能提升。

该项目提供了一个包含模型定义、优化器及训练循环的核心代码库,允许 Agent 对其进行全方位的架构和参数调整。 它设定了严格的五分钟训练时间预算,以确保实验可以在短时间内快速迭代并获得反馈。 采用 val_bpb 作为衡量模型性能的核心指标,确保在修改架构后不同实验结果之间具备可比性。 通过独立的 Markdown 配置文件,用户无需直接修改代码,只需编写任务目标和指令即可引导 Agent 完成研究。

该项目适用于对大模型底层训练感兴趣的研究人员或开发者,适合在有限的单卡 GPU 计算资源下进行高频次的实验与模型性能探索。