AutoDidact: 通过自我验证实现搜索引导

本研究探索了小型 LLM 如何通过生成、研究并回答自拟的问答对，利用强化学习掌握 Agent 搜索能力，从而自主增强其研究与推理水平。整个过程仅需在一块 RTX 4090 上即可运行！

致谢： 本项目基于 Unsloth 的高效 GRPO 代码构建，并增加了对函数调用（Function Calling）和 Agent 循环的支持。

🚀 核心功能

基于 Llama-8B 的自我引导： Llama-8B 从文档中自主生成有意义的问答对，随后通过训练，学习如何有效地在语料库中搜索以回答这些自生成的问题。
自主自我验证： Llama-8B 会评估其回答的准确性，从而建立一个自我改进的反馈闭环。
GRPO 强化学习： 实现了组相对策略优化（Group Relative Policy Optimization, GRPO），旨在优化 Llama-8B 进行研究、搜索和逻辑推理的能力。
完全自主的开源流水线： 包括问题生成、答案研究、验证、Embedding 创建以及强化学习在内的每一个步骤，均可使用开源模型在本地运行。

Alt Text

仅经过 100 步 GRPO 训练（在单块 RTX 4090 GPU 上耗时 1 小时），Llama-8B 在研究并回答阿波罗 13 号任务报告相关问题的能力上有了显著提升。

在包含 68 个问题的验证集上，准确率从 23% 提升至 59%，翻了一倍多。

在训练初期，模型经常会误用搜索工具，表现如下：

然而，通过训练，模型学会了有效地进行推理和搜索。它开始发出格式规范的查询语句，根据部分结果优化搜索，并成功检索到准确答案。

以下示例展示了模型训练后习得的自适应搜索行为。

为什么在阿波罗 13 号飞行前 3 天要替换掉备份指令舱驾驶员？

查询："Apollo 13 Command Module Pilot substitution"
- 结果：检索到了任务支持细节，但没有关于替换原因的说明。
- Agent 动作：识别到信息缺失 → 优化查询。
查询："Apollo 13 Command Module Pilot substitution reason"
- 结果：检索到了任务异常的一般信息，但仍未找到直接答案。
- Agent 动作：提高查询特异性。
查询："Apollo 13 John 'Jack' Swigert substitution"
- 结果：找到了通用任务报告，但仍缺少替换的明确原因。
- Agent 动作：推测可能是疾病因素 → 相应优化查询。
查询："Apollo 13 Jack Swigert illness substitution"
- 结果：检索到了准确解释： “发射前几天，备份登月舱驾驶员患上了麻疹。对主力船员的检查表明，指令舱驾驶员对该疾病没有免疫力；因此，备份指令舱驾驶员被替换。”

原指令舱驾驶员对麻疹缺乏免疫力，因此需要由 Jack Swigert 顶替。

该示例展示了 Llama 如何学会通过多次搜索来找到其问题的答案。

pip install -r requirements.txt

首先生成 Embedding、问题和答案：

python generate_data.py  # 为您的文档生成 QA 对和 Embedding

现在，运行 autodidact.ipynb，观察您的研究 Agent 开始学习！

将现有的阿波罗 13 号任务报告（data/mission_report.md）替换为您自己的 Markdown 文件。然后重新运行：

python generate_data.py

这将生成新的问答对并构建搜索索引，使您可以针对任何数据集训练研究 Agent。