LLM-RL算法中的PPODPOGRPOGSPO是什么?
摘要:原文: https:mp.weixin.qq.coms9KT9LrMTXDGHSvGFrQhRkg LLM-RL往期文章推荐 小白也能看懂的RL-PPO 收藏!强化学习从入门到封神:5 本经典教材 + 8 大实战项
原文: https://mp.weixin.qq.com/s/9KT9LrMTXDGHSvGFrQhRkg
LLM-RL往期文章推荐
小白也能看懂的RL-PPO
收藏!强化学习从入门到封神:5 本经典教材 + 8 大实战项目 + 7个免费视频,一站式搞定
小白也能看懂的RLHF:基础篇
小白也能看懂的RLHF-PPO:原理篇
强化学习 (RL, Reinforcement Learning) 已成为大模型后训练的关键环节,在前几篇中,我们对LLM-RL中最基础、最核心的PPO算法做了详细的拆解,有需要的可以点击上面链接阅读,本篇将介绍其他主流的LLM-RL算法。读完这篇后,你会发现,不管是哪种LLM-RL算法,本质都是将人类偏好融入到大模型中,差异点在于以何种方式/更高效地挖掘偏好数据的价值、如何在降低算力资源需求下保证模型性能、如何提高算法稳定性。
在介绍LLM-RL各类策略算法前,我们将先解释一些基本概念,涵盖强化学习理解、价值函数、NLP中的强化学习。 随后,介绍RLHF的起源、设计思路、如何与大模型RLHF算法关联的。再对LLM-RL主流的(DPO、GRPO、GSPO)策略优化算法进行细致讲解,如各个算法原理、训练过程、优缺点等。为了能够更好地对比各个算法,也会捎带介绍下PPO算法。
1 基本概念
1.1 强化学习理解
强化学习关键在于「强化」这个词,简单理解就是「用反馈强化行为」,即用奖惩规则让智能体自己在试错中筛选出有效行为,再通过重复反馈把这些行为巩固成最优策略,本质就是「奖惩驱动的行为筛选与巩固」,咱们结合之训练小狗坐下的例子逐词解释下这句话。
奖惩驱动:RL整个学习过程的核心动力来自奖励 和 惩罚/无奖励的即时反馈,比如小狗做对坐下就给零食(奖励),没做对就不给零食(无奖励),小狗的行为选择完全由这种反馈驱动。
行为筛选:智能体(小狗)会在动作空间里不断尝试不同行为,而奖惩就像一个筛选器,被奖励的行为会被保留,被惩罚/无奖励的行为会被淘汰。比如小狗一开始可能尝试蹦跳、趴着、摇尾巴等动作,这些动作都没得到零食,就会慢慢被筛选掉;只有坐下这个动作能拿到零食,就会被筛选出来。
行为巩固:被筛选出来的有效行为,会在一次次重复的「行为—奖励」循环中被强化,最终变成稳定的条件反射。比如小狗每次做坐下都能拿到零食,重复次数多了,它就会把听到指令→坐下这个行为固定下来,形成稳定的技能。
简单来说,「强化」不是增强能力,而是强化「动作 - 奖励之间」的关联,让智能体慢慢记住做什么能拿到好处,做什么会吃亏。就像训练小狗时,你不用强行掰它的腿让它坐下,只需要用零食的奖惩,让它自己悟出坐下=有吃的这个规律,最后形成稳定的行为习惯。
接下来,我们继续以训练小狗坐下为例,理解下强化学习的关键要素、学习过程。
强化学习的2个核心角色:
智能体(Agent):要学习坐下技能的小狗
环境(Environment):小狗所处的训练场景(比如家里的客厅、户外的院子等)
强化学习的3个关键要素:
状态空间 \(S\):训练环境中所有可能出现的场景集合。比如小狗可能站着/趴着/对着玩具叫,也可能身边有陌生人经过,这些不同的状态都属于状态空间
动作空间 \(A\):小狗能做出的所有动作集合。比如小狗可以站着不动、趴着休息、摇尾巴、跳跃、坐下,这些都是它动作空间里的内容
奖励 \(R\):小狗处于某个状态、做出某个动作时,给出的即时反馈。比如小狗做出坐下动作时,给它一块零食;如果小狗乱蹦乱跳不配合,就不给零食甚至轻声制止。
那小狗(智能体)和训练环境是怎么互动的,最终学会坐下的呢?我们以训练中 \(t\)时刻的互动过程为例:
当前状态\(S\_t\):小狗正站在客厅里看着你,此时它还没做出目标动作,所以没拿到奖励,即时奖励\(R\_t\)= 0
小狗的动作\(A\_t\):你发出坐下的指令后,小狗可能做出各种反应,比如蹦跳、可能趴着,也可能偶然做出坐下的动作;
新状态 \(S\_{t+1}\)与新反馈与\(R\_{t+1}\):如果小狗刚才做的动作\(A\_t\)=坐下,训练状态就变成小狗处于坐下状态\(S\_{t+1}\),主人立刻给它一块零食作为奖励\(R\_{t+1}\)=2 的正向奖励;如果小狗做的是其他动作,\(S\_{t+1}\)可能变成小狗趴着或小狗蹦跳,主人不给零食\(R_{t+1}\)=0。
这样的互动会一次次重复:主人反复发出指令,小狗在不同状态下尝试不同动作,并根据是否拿到零食(奖励)总结经验。最终,小狗(智能体)就会学到一套最优玩法:当接收到坐下指令时,立刻做出坐下动作,以此稳定拿到零食奖励,这就是强化学习的核心逻辑。
