Autonomously train research-agent LLMs on custom data using reinforcement learning and self-verification.
AutoDidact 是一个基于 Jupyter Notebook 的开源项目,旨在通过强化学习与自我验证机制,让小型大语言模型能够利用自定义数据自主提升研究与推理能力。该项目构建了一个闭环的自动化流水线,实现了模型在单张 RTX 4090 显卡上即可完成从问题生成到智能体搜索训练的全过程。
模型通过 Llama-8B 自动生成高质量的问答对,并利用这些数据训练模型自主执行搜索任务。内置了基于 GRPO 算法的强化学习模块,用于持续优化模型的搜索策略与逻辑推理能力。系统支持完全本地化的自主验证闭环,模型能够自我评估答案准确性并不断优化搜索行为。支持函数调用与智能体循环,确保模型能够针对复杂问题进行自适应的多轮搜索与纠错。
该项目适用于希望在有限算力下优化本地大模型研究与检索性能的开发者及研究人员,特别适合需要定制化文档分析与自主 Agent 开发的各种垂直应用场景。