OpenManus-RL

🤗 数据集 (OpenManus-RL)

OpenManus-RL 是由 Ulab-UIUC 和 MetaGPT 共同领导的开源计划。

本项目是原项目 @OpenManus 的扩展版本。受 Deepseek-R1、QwQ-32B 等推理 LLM 的 RL（强化学习）微调成功经验的启发，我们将探索基于 RL 的 LLM Agent 微调新范式，特别是在现有基础上的创新。

我们致力于以动态直播的方式定期更新探索方向和研究成果。所有进展，包括在 GAIA、AgentBench、WebShop 和 OSWorld 等 Agent 基准测试上的严格测试，以及微调后的模型，都将公开分享并持续更新。

我们热忱欢迎社区参与贡献——加入我们，共同拓展 Agent 推理和工具集成的边界！

代码和数据集现已发布！verl 子模块已集成，以增强 RL 训练能力。

📖 目录

我们全心全意欢迎来自社区的建议、反馈和贡献！欢迎参与：

我们欢迎各种形式的贡献，包括微调代码库、调优数据集、环境搭建以及提供计算资源。

我们的方法提出了一种先进的基于强化学习 (RL) 的 Agent 微调框架，旨在显著增强大语言模型 (LLMs) 的推理和决策能力。受 RAGEN 的推理-交互链优化 (RICO) 启发，我们的方法进一步探索了新颖的算法结构、多样化的推理范式、复杂的奖励策略以及广泛的基准测试环境。

为了有效地对推理能力进行基准测试，我们评估了多个前沿的推理模型：

每个模型都提供了独特的技术视角……（后续内容）