Awesome-AgenticLLM-RL-Papers

这是综述论文《The Landscape of Agentic Reinforcement Learning for LLMs: A Survey》（LLM 智能体强化学习全景综述）的官方仓库。

ArXiv – https://arxiv.org/abs/2509.02547

HuggingFace – https://huggingface.co/papers/2509.02547

引用

@article{
      zhang2026landscapeagenticreinforcementlearning,
      title={The Landscape of Agentic Reinforcement Learning for {LLM}s: A Survey},
      author={Guibin Zhang and Hejia Geng and Xiaohang Yu and Zhenfei Yin and Zaibin Zhang and Zelin Tan and Heng Zhou and Zhong-Zhi Li and Xiangyuan Xue and Yijiang Li and Yifan Zhou and Yang Chen and Chen Zhang and Yutao Fan and Zihu Wang and Songtao Huang and Francisco Piedrahita Velez and Yue Liao and Hongru WANG and Mengyue Yang and Heng Ji and Jun Wang and Shuicheng YAN and Philip Torr and LEI BAI},
      journal={Transactions on Machine Learning Research},
      issn={2835-8856},
      year={2026},
      url={https://openreview.net/forum?id=RY19y2RI1O},
      note={Survey Certification}
}

2.7 节智能体 RL：算法

Clip（裁剪）通过防止策略比率偏离 1 太远，来确保更新的稳定性。 KL penalty（KL 惩罚）通过惩罚学习策略与参考策略之间的 KL 散度，来确保模型对齐。

方法	年份	目标类型	Clip	KL Penalty	核心机制	信号	链接	资源
*PPO 系列*
PPO	2017	Policy gradient	是	否	策略比率裁剪	奖励	论文	-
VAPO	2025	Policy gradient	是	自适应	自适应 KL 惩罚 + 方差控制	奖励 + 方差信号	论文	-
PF-PPO	2024	Policy gradient	是	是	策略过滤 (Policy filtration)	噪声奖励	论文	代码
VinePPO	2024	Policy gradient	是	是	无偏值估计	奖励	论文	代码
PSGPO	2024	Policy gradient	是	是	过程监督	过程奖励	论文	-
*DPO 系列*
DPO	2024	Preference optimization	否	是	与策略相关的隐式奖励	人类偏好	论文	-
β-DPO	2024	Preference optimization	否	自适应	动态 KL 系数	人类偏好	论文	代码
SimPO	2024	Preference optimization	否	缩放	使用序列平均对数概率作为隐式奖励	人类偏好	论文	代码
IPO	2024	Implicit preference	否	否	将 LLM 作为偏好分类器	偏好排序	论文	-
KTO	2024	Knowledge transfer optimization	否	是	教师模型稳定性	师生 Logit	论文	代码模型
ORPO	2024	Online regularized preference optimization	否	是	在线稳定性	在线反馈奖励	论文	代码模型
Step-DPO	2024	Preference optimization	否	是	逐步监督	逐步偏好	论文	代码模型
LCPO	2025	Preference optimization	否	是	长度偏好（限制数据/训练场景）	奖励	论文	-
*GRPO 系列*
GRPO	2025	Policy gradient under group-based reward	是	是	基于组的相对奖励以消除值估计	基于组的奖励	论文	-
DAPO	2025	Surrogate of GRPO's	是	是	解耦 Clip + 动态采样	动态组奖励	论文	代码模型官网
LUFFY	2025	Same as GRPO's	是	是	带有离线推理指导的混合策略 GRPO	基于组的奖励（在线+离线策略）	[论文](https://arxiv.org/abs/2...	-

xhyumiracle/Awesome-AgenticLLM-RL-Papers

Awesome-AgenticLLM-RL-Papers

引用

2.7 节 智能体 RL：算法

2.7 节智能体 RL：算法