uditgoenka/autoresearch

Claude Autoresearch Skill — Autonomous goal-directed iteration for Claude Code. Inspired by Karpathy's autoresearch. Modify → Verify → Keep/Discard → Repeat forever.

aiautonomous-agentautoresearchclaudeclaude-codeiterationkarpathyproductivityskill

GAI 中文摘要

Autoresearch 是一个基于 JavaScript 开发的自动化代理工具，旨在将 Claude Code 等 AI 编程助手转化为具备自主改进能力的引擎。该项目通过实现“设定目标-循环修改-验证结果-保留或回滚”的自动化闭环，显著提升了在特定任务中的迭代效率。

项目通过定义机械化的度量指标，确保 AI 能够围绕核心目标进行持续优化。其核心循环机制支持自动化的实验流程，每次修改后均会自动验证结果。系统内置了完善的安全钩子和回滚策略，保证在实验失败时能够自动恢复环境状态。通过模块化的架构设计，项目大幅降低了单次调用的 Token 消耗，从而提升了处理复杂任务的经济性。

该项目适用于开发者、研究人员及各类需要通过大规模重复实验来提升结果质量的专业人士。它特别适合应用于代码重构、机器学习模型优化、内容生成或 DevOps 流程等具备可衡量指标的任务场景。

⭐

4.8k

Stars

🔱

363

Forks

👁

Watchers

📋

Issues

JavaScriptMIT创建于 2026/3/13更新于今天

在 GitHub 上查看访问主页

README

由 Gemini 翻译整理

Autoresearch

将 Claude Code、OpenCode 或 OpenAI Codex 转变为永不疲倦的改进引擎。

基于 Karpathy 的 autoresearch —— 约束 + 机械指标 + 自主迭代 = 复利增长。

"设定目标 → 智能体运行循环 → 你在收获中醒来"

你不需要 AGI。你只需要一个目标、一个指标和一个永不停止的循环。

支持 Claude Code、OpenCode 和 OpenAI Codex。包含 13 个命令，9 个安全钩子。每次调用 Token 消耗减少 95%。

工作原理 · 命令 · 快速开始 · 指南 · 常见问题

      PLAN              LOOP             DEBUG              FIX            SECURE            SHIP
 ┌──────────┐     ┌──────────┐     ┌──────────┐     ┌──────────┐     ┌──────────┐     ┌──────────┐
 │   Goal   │     │  Modify  │     │   Find   │     │   Fix    │     │  STRIDE  │     │  Stage   │
 │  Metric  │────▶│  Verify  │────▶│   Bugs   │────▶│  Errors  │────▶│  OWASP   │────▶│  Deploy  │
 │  Scope   │     │  Keep/   │     │  Trace   │     │  Repair  │     │  Red     │     │ Release  │
 └──────────┘     │  Discard │     └──────────┘     └──────────┘     │  Team    │     └──────────┘
/autoresearch:    └──────────┘    /autoresearch:    /autoresearch:   └──────────┘    /autoresearch:
  plan            /autoresearch     debug              fix          /autoresearch:      ship
                                                                     security

 ┌──────────┐     ┌──────────┐     ┌──────────┐     ┌──────────┐     ┌──────────┐     ┌──────────┐
 │  Probe   │     │ Scenario │     │ Predict  │     │  Learn   │     │  Reason  │     │ Improve  │
 │ Require- │     │   Edge   │     │  5-Expert │     │   Docs   │     │  Debate  │     │ Research │
 │  ments   │     │   Cases  │     │  Swarm   │     │   Gen    │     │ Converge │     │   PRDs   │
 └──────────┘     └──────────┘     └──────────┘     └──────────┘     └──────────┘     └──────────┘
/autoresearch:   /autoresearch:   /autoresearch:   /autoresearch:   /autoresearch:   /autoresearch:
  probe            scenario         predict           learn           reason            improve

                                                                                      ┌──────────┐
                                                                                      │  Evals   │
                                                                                      │ Analyze  │
                                                                                      │ Results  │
                                                                                      └──────────┘
                                                                                     /autoresearch:
                                                                                       evals

为什么存在这个项目

Karpathy 的 autoresearch 展示了一个 630 行的 Python 脚本如何通过遵循简单原则（单一指标、约束范围、快速验证、自动回滚、以 Git 作为记忆）在夜间自主改进 ML 模型——每晚进行 100 次实验。

Claude Autoresearch 将这些原则推广到了任何领域。 不仅仅是 ML——代码、内容、营销、销售、人力资源、DevOps，或任何你可以量化的事物。

v2.1.0 是一次重大的架构重构。 单体化的 SKILL.md（813 行，每次调用约 10 万 Token）已被替换为 41 行的轻量级路由文件和 12 个独立的命令文件（每个文件 94–120 行，每次调用约 5-8 千 Token）。在保持相同功能覆盖面的前提下，Token 消耗减少了 95%。

工作原理

LOOP (N iterations or until done):
  1. Review current state + git history + results log
  2. Pick the next change (based on what worked, what failed, what's u