AgentGym-RL: 通过多轮强化学习训练长视距决策的 LLM Agent

📃 论文 • 🌐 项目主页 • 🤗 AgentGym-RL-Data-ID

AgentGym-RL 是一个全新的框架，旨在通过 RL（强化学习）训练 LLM Agent 进行多轮交互式决策。它涵盖了多种现实世界场景，并支持主流的 RL 算法。大量实验表明，我们的框架和方法能够显著增强开源的 7B 规模模型，使其在多样化环境的 27 项任务中达到或超越商业模型水平。

🔔 最新动态

🏆[2026-02-06] 我们的论文已被 ICLR 2026 接收为口头报告（Oral presentation）！
🎉[2025-09-10] 您可以开发自定义环境并接入 AgentGym 进行 RL 训练！教程请见此处。
🥳[2025-09-10] 我们的论文已在 arXiv 发布：AgentGym-RL: Training LLM Agents for Long-Horizon Decision Making through Multi-Turn Reinforcement Learning
🍺[2025-09-10] 我们的 RL 数据集和基准测试已在 Hugging Face 上线：AgentGym-RL-Data-ID

🌟 项目概述

开发能够通过一系列智能决策来解决复杂现实世界任务的自主 LLM Agent 是一个快速发展的尖端领域。仅仅依赖人类演示进行行为克隆（Behavior Cloning）可以使 Agent 胜任部分任务，但很难带来真正的突破。正如 Richard Sutton 所强调的，通过与环境的探索和交互所获得的知识、技能和经验才是推动 Agent 进步的真正动力。因此，利用强化学习来训练这些 Agent 是一种非常有前景的方法。

目前大多数研究仍局限于数学和编码等单轮任务。近期将 RL 应用于训练具有多轮能力的 LLM Agent 的尝试面临着显著挑战：

任务复杂度和环境多样性受限。 在强化学习时代，环境变得愈发关键。仅在简单设置下表现良好的 Agent 很难迁移到现实世界场景中，而环境的多样性是实现泛化的前提。
难以实现稳定高效的优化。 多轮交互极大地扩大了搜索空间，增加了训练信号的方差，使得在探索（Exploration）与利用（Exploitation）之间取得平衡变得困难。

为了应对这些挑战，我们推出了 AgentGym-RL，这是一个通过 RL 训练 LLM Agent 进行多轮交互式决策的新框架。它涵盖了多种现实世界场景，并支持主流的 RL 算法，为“经验驱动”时代的 Agent 研究与实践奠定了基础。

此外，为了解决探索与利用的权衡问题并提高 Agent RL 训练的优化稳定性，我们提出了 ScalingInter-RL，这是一种在训练过程中逐步扩展 Agent-环境交互视距（Horizon）的方法。在不同环境下的实验表明，利用我们的 AgentGym-RL 框架结合 ScalingInter-RL 算法，能够带来稳定、持续且显著的行为改进。

同时，为了方便对数据和模型行为进行探索，我们提供了一个可视化交互用户界面，支持对完整交互轨迹的回放和审查，从而简化了迭代开发过程中的实证分析。

📖 目录

AgentGym-RL: 通过多轮强化学习训练长视距决策的 LLM Agent

功能特性

AgentGym-RL 的模块化系统设计

我们采用模块化和解耦的设计来实现 AgentGym-RL，将其组织为三个主要组件：