Code and implementations for the paper "AgentGym-RL: Training LLM Agents for Long-Horizon Decision Making through Multi-Turn Reinforcement Learning" by Zhiheng Xi et al.
AgentGym-RL 是一个专门用于训练大语言模型智能体的强化学习框架,旨在解决智能体在复杂多轮交互任务中的长程决策难题。该项目通过大规模的现实场景训练和主流强化学习算法支持,显著提升了开源模型的决策能力,使其能够达到甚至超越商业闭源模型的性能水平。
支持多样化的真实世界交互场景,涵盖 27 项复杂任务以增强模型的泛化能力。 集成了多种主流强化学习算法,专门针对多轮对话决策的训练流程进行优化。 提供完整的训练数据集与评估基准,并支持用户根据需求开发自定义环境。 有效解决长程决策中因搜索空间扩大带来的训练不稳定问题,实现高效的策略探索与优化。
适用于从事大语言模型智能体开发、强化学习算法研究的科研人员或开发者,可用于提升智能体在复杂、多轮任务中的自主决策与交互表现。