© 2026FindAgent  · @simprr
返回列表
O

OpenManus/OpenManus-RL

A live stream development of RL tunning for LLM agents

⭐

4.0k

Stars

🔱

544

Forks

👁

56

Watchers

📋

23

Issues

PythonApache-2.0创建于 2025/3/6更新于 今天
在 GitHub 上查看
README
由 Gemini 翻译整理

OpenManus-RL

🤗 数据集 (OpenManus-RL)

OpenManus-RL 是由 Ulab-UIUC 和 MetaGPT 共同领导的开源项目。

本项目是原版 @OpenManus 项目的扩展版本。受 Deepseek-R1、QwQ-32B 等推理型 LLM 在 RL(强化学习)微调方面成功经验的启发,我们将探索基于 RL 的 LLM Agent 微调新范式,并在此基础上进行构建。

我们致力于以动态、直播的方式定期更新我们的探索方向和成果。所有进展,包括在 GAIA、AgentBench、WebShop 和 OSWorld 等 Agent 基准测试上的严格评估,以及微调后的模型,都将公开分享并持续更新。

我们热忱欢迎社区贡献者加入——让我们共同突破 Agent 推理和工具集成的边界!

代码和数据集现已可用!verl 子模块已集成,以增强 RL 训练能力。

📖 目录

  • OpenManus-RL
    • 🔔 新闻动态
    • 当前团队成员
    • 如何贡献
    • 路线图
    • 方法
      • 推理模型探索
      • 替代性 Rollout 策略
      • 环境与基准测试
      • 后训练策略
      • Agent 奖励模型训练
      • 轨迹的 Test-time Scaling
      • 动作空间感知与策略性探索
      • 与 RL 微调框架的集成
    • 数据集
      • 数据集概览
      • 数据实例
  • 运行指南
  • 相关工作
    • Agent 微调
    • 工具使用
    • Agent 微调指令数据集
    • RL 微调
    • 基准测试
    • 类似代码
  • 致谢
  • 社区小组
  • 引用
  • 文档

🔔 新闻动态

  • [2025-03-09] 🍺 我们收集并开源了我们的 Agent SFT 数据集,可在 Huggingface 获取,欢迎尝试!
  • [2025-03-08] 🎉 我们正在与来自 MetaGPT 的 @OpenManus 团队协作,共同开发该项目!
  • [2025-03-06] 🥳 我们(UIUC-Ulab)正式宣布启动 OpenManus-RL 直播项目。

当前团队成员

@Kunlun Zhu(Ulab-UIUC), @Muxin Tian, @Zijia Liu(Ulab-UIUC), @Yingxuan Yang,@Jiayi Zhang(MetaGPT), @Xinbing Liang, @Weijia Zhang, @Haofei Yu(Ulab-UIUC), @Cheng Qian,@Bowen Jin


如何贡献

我们衷心欢迎来自社区的建议、反馈和贡献!你可以:

  • 我们欢迎包括微调代码库、调优数据集、环境搭建以及计算资源在内的各类贡献。
  • 创建 Issue 以提出功能需求、报告 Bug 或交流想法。
  • 提交 Pull Request 以帮助改进 OpenManus-RL。
  • 或者直接联系我们进行深度合作。 重要的贡献者将被列为我们论文的共同作者。

路线图

  1. Agent 环境支持 构建用于在线 RL 微调的 LLM Agent 环境。

  2. Agent 轨迹数据收集 连接 Deepseek-R1、QwQ-32B 等专用推理模型,以完成更复杂的推理任务,从而收集全面的 Agent 轨迹。

  3. RL 微调模型范式 提供一种 RL 微调方法,用于在我们的 Agent 环境中定制 Agent 的行为。

  4. Agent 基准测试 在 Webshop、GAIA、OSWorld、AgentBench 等 Agent 基准测试上评估我们的框架。

方法

我们的方法提出了一种基于强化学习 (RL) 的高级 Agent 微调框架,旨在显著增强 LLM 的推理和决策能力。受 RAGEN 的推理-交互链优化 (RICO) 启发,我们的方法进一步探索了新颖的算法结构、多样化的推理范式、复杂的奖励策略以及广泛的基准测试环境。

推理模型探索

为了有效评估推理能力,我们测试了多个前沿推理模型:

  • GPT-O1
  • Deepseek-R1
  • QwQ-32B

每个模型都提供了独特的贡献。

贡献者
KrCmrzlm
项目信息
默认分支main
LicenseApache License 2.0
创建时间2025/3/6
最近更新今天
GAI 中文摘要

OpenManus-RL 是一个由 UIUC Ulab 与 MetaGPT 联合发起的开源项目,旨在探索基于强化学习(RL)的智能体微调新范式。该项目通过整合前沿的强化学习训练框架,致力于提升大型语言模型在智能体推理能力和工具集成方面的表现,并以直播式的动态更新方式共享研究进展。

集成了 verl 子模块以支持增强的强化学习训练能力,为复杂的智能体任务提供高效的训练架构。

提供开放的智能体 SFT 数据集,助力社区研究人员进行模型微调与数据分析。

通过在 GAIA、AgentBench、WebShop 及 OSWorld 等主流智能体基准测试中进行严谨验证,确保模型性能的可靠性。

探索多种核心技术路径,涵盖奖励模型训练、推理模型探索、替代回放策略以及测试时轨迹扩展等关键领域。

该项目适合对强化学习驱动的智能体开发感兴趣的研究人员与开发者,特别适用于需要提升 LLM 在复杂任务中推理与工具调用能力的科研与工程场景。