Awesome-AgenticLLM-RL-Papers 是一个专门收录大语言模型智能体强化学习(Agentic RL)领域前沿研究成果的资源汇总库。该项目配套同名综述论文,旨在通过系统化的整理帮助研究人员快速掌握智能体决策、策略优化及其在 LLM 中的应用现状。
项目详细梳理了 PPO、DPO 等主流强化学习算法在智能体场景中的演进路径。针对每种算法提供了包括目标类型、裁剪机制、KL 惩罚策略及核心机制在内的结构化对比分析。整理并收录了各算法的原始论文链接及对应的开源代码库。通过直观的对比表格,清晰呈现了各类优化目标与信号来源的差异。
该项目适用于从事大模型对齐、强化学习算法研究或智能体系统开发的科研人员与工程实践者,是进行文献调研、算法选型及深入探索大模型决策优化的必备工具。