LLM与REINFORCE结合,近期新方法是啥?

摘要:REINFORCE++ 把 GRPO“prompt 小组内归一化优势”升级为“全局 batch 上标准化优势”,并搭配稳定的 KL 估计方式,比 PPO 轻量级,比 GRPO 稳定和泛化性强。
论文标题:REINFORCE++: Stabilizing Critic-Free Policy Optimization with Global Advantage Normalization 使用 MiroThinker 速读了一下,还没仔细研究。 参考链接: arxiv:https://arxiv.org/abs/2501.03262 pdf:https://arxiv.org/pdf/2501.03262 html:https://arxiv.org/html/2501.03262v9 各种训练框架里,应该会有参考实现吧,我还没 check。 参考博客: 知乎 | RLHF 对齐之 REINFORCE++ 算法 - 比 GRPO 稳定比 PPO 快 ,好像是作者的知乎博客 知乎 | 一种高效且鲁棒的 RLHF 算法:REINFORCE++ ,看起来好像把文章翻译了一遍 目录1 整体直观认识:REINFORCE++ 是什么?2 从 REINFORCE 回顾到 RLHF:把问题说清楚3 REINFORCE++ 的核心:全局优势标准化 (Global Advantage Normalization)4 两个具体算法变体:k=1 与 k>14.1 REINFORCE++ (k = 1):面向通用 RLHF 的简单高效版本4.2 REINFORCE++ w/ Baseline (k > 1):面向复杂推理和工具使用的稳定版本5 与 PPO、GRPO 的关系和区别(总结视图)6 实验给出的关键信息(帮你建立直觉)7 如果你想以这为起点入门大模型 RL 研究,可以这么学8 一段话收尾总结 以下为 MiroThinker 的回答 下面我用「面向入门科研、但有一点 ML 基础」的方式,系统帮你把 REINFORCE++ 讲清楚,并顺便把 PPO / GRPO 放在对比框架里,方便你建立整体图景。 1 整体直观认识:REINFORCE++ 是什么? 一句话概括: REINFORCE++ 是一种专门给大模型做 RLHF 的、不要价值网络(critic-free)的强化学习算法,通过“全局优势标准化(Global Advantage Normalization)”来提升训练稳定性和泛化能力。[1] 从你当前的基础来看,可以先把几种方法粗糙地理解为: PPO: 传统 RL 里的「主力算法」,有一个额外的价值网络(critic)来估计每个状态的价值,用它算优势函数。好处是稳定,坏处是训练和部署都更重。 GRPO(Group Relative Policy Optimization): 近几年 LLM 领域火起来的 无 critic 方法: 对每个 prompt 采样多条回答(一个组), 在这个组内部做「相对打分、归一化」, 用组内的相对优势来更新策略。 好处是简单、便宜;坏处是组内(prompt 级)归一化理论上是有偏和不稳定的。 REINFORCE++(Hu, 2025)[1]: 在 GRPO 这类 critic-free RLHF 的基础上,提出: 不只在「每个 prompt 的小组里」做归一化, 而是在整个全局 batch 上做优势的标准化(全局优势标准化,Global Advantage Normalization, GAN), 搭配合适的 KL 正则形式, 得到一个更稳定、更泛化、又仍然保持「不需要价值网络」的 RLHF 训练方案。 可以把它理解成: 「PPO 的稳定性 + GRPO 的便宜和简单」的折中,但通过全局统计和合理的 KL 设计,解决了 GRPO 那种“只在每个小 group 里玩”的理论缺陷。 2 从 REINFORCE 回顾到 RLHF:把问题说清楚 你大概知道 REINFORCE / Policy Gradient 的基本形式: \[\nabla_\theta J(\theta) \approx \mathbb{E}\_{(s,a)\sim \pi\_\theta}[\nabla_\theta \log \pi\_\theta(a|s)\, A(s,a)] \] 关键是:优势 \(A(s,a)\) 怎么来。
阅读全文