LLM与REINFORCE结合，近期新方法是啥？

摘要：REINFORCE++ 把 GRPO“prompt 小组内归一化优势”升级为“全局 batch 上标准化优势”，并搭配稳定的 KL 估计方式，比 PPO 轻量级，比 GRPO 稳定和泛化性强。

论文标题：REINFORCE++: Stabilizing Critic-Free Policy Optimization with Global Advantage Normalization 使用 MiroThinker 速读了一下，还没仔细研究。参考链接： arxiv：https://arxiv.org/abs/2501.03262 pdf：https://arxiv.org/pdf/2501.03262 html：https://arxiv.org/html/2501.03262v9 各种训练框架里，应该会有参考实现吧，我还没 check。参考博客：知乎 | RLHF 对齐之 REINFORCE++ 算法 - 比 GRPO 稳定比 PPO 快，好像是作者的知乎博客知乎 | 一种高效且鲁棒的 RLHF 算法：REINFORCE++ ，看起来好像把文章翻译了一遍目录1 整体直观认识：REINFORCE++ 是什么？2 从 REINFORCE 回顾到 RLHF：把问题说清楚3 REINFORCE++ 的核心：全局优势标准化 (Global Advantage Normalization)4 两个具体算法变体：k=1 与 k>14.1 REINFORCE++ (k = 1)：面向通用 RLHF 的简单高效版本4.2 REINFORCE++ w/ Baseline (k > 1)：面向复杂推理和工具使用的稳定版本5 与 PPO、GRPO 的关系和区别（总结视图）6 实验给出的关键信息（帮你建立直觉）7 如果你想以这为起点入门大模型 RL 研究，可以这么学8 一段话收尾总结以下为 MiroThinker 的回答下面我用「面向入门科研、但有一点 ML 基础」的方式，系统帮你把 REINFORCE++ 讲清楚，并顺便把 PPO / GRPO 放在对比框架里，方便你建立整体图景。 1 整体直观认识：REINFORCE++ 是什么？一句话概括： REINFORCE++ 是一种专门给大模型做 RLHF 的、不要价值网络（critic-free）的强化学习算法，通过“全局优势标准化（Global Advantage Normalization）”来提升训练稳定性和泛化能力。[1] 从你当前的基础来看，可以先把几种方法粗糙地理解为： PPO：传统 RL 里的「主力算法」，有一个额外的价值网络（critic）来估计每个状态的价值，用它算优势函数。好处是稳定，坏处是训练和部署都更重。 GRPO（Group Relative Policy Optimization）：近几年 LLM 领域火起来的无 critic 方法：对每个 prompt 采样多条回答（一个组），在这个组内部做「相对打分、归一化」，用组内的相对优势来更新策略。好处是简单、便宜；坏处是组内（prompt 级）归一化理论上是有偏和不稳定的。 REINFORCE++（Hu, 2025）[1]：在 GRPO 这类 critic-free RLHF 的基础上，提出：不只在「每个 prompt 的小组里」做归一化，而是在整个全局 batch 上做优势的标准化（全局优势标准化，Global Advantage Normalization, GAN），搭配合适的 KL 正则形式，得到一个更稳定、更泛化、又仍然保持「不需要价值网络」的 RLHF 训练方案。可以把它理解成：「PPO 的稳定性 + GRPO 的便宜和简单」的折中，但通过全局统计和合理的 KL 设计，解决了 GRPO 那种“只在每个小 group 里玩”的理论缺陷。 2 从 REINFORCE 回顾到 RLHF：把问题说清楚你大概知道 REINFORCE / Policy Gradient 的基本形式： \[\nabla_\theta J(\theta) \approx \mathbb{E}\_{(s,a)\sim \pi\_\theta}[\nabla_\theta \log \pi\_\theta(a|s)\, A(s,a)] \] 关键是：优势 \(A(s,a)\) 怎么来。

LLM与REINFORCE结合，近期新方法是啥？

相关推荐