LLM与REINFORCE结合,近期新方法是啥?
摘要:REINFORCE++ 把 GRPO“prompt 小组内归一化优势”升级为“全局 batch 上标准化优势”,并搭配稳定的 KL 估计方式,比 PPO 轻量级,比 GRPO 稳定和泛化性强。
论文标题:REINFORCE++: Stabilizing Critic-Free Policy Optimization with Global Advantage Normalization
使用 MiroThinker 速读了一下,还没仔细研究。
参考链接:
arxiv:https://arxiv.org/abs/2501.03262
pdf:https://arxiv.org/pdf/2501.03262
html:https://arxiv.org/html/2501.03262v9
各种训练框架里,应该会有参考实现吧,我还没 check。
参考博客:
知乎 | RLHF 对齐之 REINFORCE++ 算法 - 比 GRPO 稳定比 PPO 快 ,好像是作者的知乎博客
知乎 | 一种高效且鲁棒的 RLHF 算法:REINFORCE++ ,看起来好像把文章翻译了一遍
目录1 整体直观认识:REINFORCE++ 是什么?2 从 REINFORCE 回顾到 RLHF:把问题说清楚3 REINFORCE++ 的核心:全局优势标准化 (Global Advantage Normalization)4 两个具体算法变体:k=1 与 k>14.1 REINFORCE++ (k = 1):面向通用 RLHF 的简单高效版本4.2 REINFORCE++ w/ Baseline (k > 1):面向复杂推理和工具使用的稳定版本5 与 PPO、GRPO 的关系和区别(总结视图)6 实验给出的关键信息(帮你建立直觉)7 如果你想以这为起点入门大模型 RL 研究,可以这么学8 一段话收尾总结
以下为 MiroThinker 的回答
下面我用「面向入门科研、但有一点 ML 基础」的方式,系统帮你把 REINFORCE++ 讲清楚,并顺便把 PPO / GRPO 放在对比框架里,方便你建立整体图景。
1 整体直观认识:REINFORCE++ 是什么?
一句话概括:
REINFORCE++ 是一种专门给大模型做 RLHF 的、不要价值网络(critic-free)的强化学习算法,通过“全局优势标准化(Global Advantage Normalization)”来提升训练稳定性和泛化能力。[1]
从你当前的基础来看,可以先把几种方法粗糙地理解为:
PPO:
传统 RL 里的「主力算法」,有一个额外的价值网络(critic)来估计每个状态的价值,用它算优势函数。好处是稳定,坏处是训练和部署都更重。
GRPO(Group Relative Policy Optimization):
近几年 LLM 领域火起来的 无 critic 方法:
对每个 prompt 采样多条回答(一个组),
在这个组内部做「相对打分、归一化」,
用组内的相对优势来更新策略。
好处是简单、便宜;坏处是组内(prompt 级)归一化理论上是有偏和不稳定的。
REINFORCE++(Hu, 2025)[1]:
在 GRPO 这类 critic-free RLHF 的基础上,提出:
不只在「每个 prompt 的小组里」做归一化,
而是在整个全局 batch 上做优势的标准化(全局优势标准化,Global Advantage Normalization, GAN),
搭配合适的 KL 正则形式,
得到一个更稳定、更泛化、又仍然保持「不需要价值网络」的 RLHF 训练方案。
可以把它理解成:
「PPO 的稳定性 + GRPO 的便宜和简单」的折中,但通过全局统计和合理的 KL 设计,解决了 GRPO 那种“只在每个小 group 里玩”的理论缺陷。
2 从 REINFORCE 回顾到 RLHF:把问题说清楚
你大概知道 REINFORCE / Policy Gradient 的基本形式:
\[\nabla_\theta J(\theta) \approx \mathbb{E}\_{(s,a)\sim \pi\_\theta}[\nabla_\theta \log \pi\_\theta(a|s)\, A(s,a)]
\]
关键是:优势 \(A(s,a)\) 怎么来。
