RLHF-PPO的原理是什么，小白也能轻松理解吗？

摘要：原文: https:mp.weixin.qq.coms8O7W8--x14-b1d3M9IS_3w LLM-RL往期文章推荐小白也能看懂的RL-PPO 收藏！强化学习从入门到封神：5 本经典教材 + 8 大实战项

原文: https://mp.weixin.qq.com/s/8O7W8--x14-b1d3M9IS_3w LLM-RL往期文章推荐小白也能看懂的RL-PPO 收藏！强化学习从入门到封神：5 本经典教材 + 8 大实战项目 + 7个免费视频，一站式搞定小白也能看懂的RLHF：基础篇在上一篇小白也能看懂的RLHF：基础篇中，我们从直觉的层面阐述了RLHF，中间有许多不严谨的地方，这一篇将从更加严谨的理论层面介绍RLHF。这篇将从强化学习中的核心元素与LLM任务的对应关系开始，逐步引入RLHF解决了SFT中的什么问题。再讲解RLHF具体是怎么做的，如Reward Model（奖励模型）、Actor Model (演员模型)、Reference Model（参考模型）和Critic Model（评论家模型）这些模型各自的运行机制，以及它们是如何协作完成RLHF的，重点讨论了PPO算法的Actor模型、Ctritic模型的目标函数。最后，结合RLHF的计算过程，重温下RLHF是如何解决stf存在的问题。 1. 强化学习原理强化学习（Reinforcement Learning, RL）作为机器学习的重要分支，目标是让智能体（agent）与环境（environment）不断交互，学习任意环境状态下的最优行为策略（policy），最终实现期望回报的最大化。形式上，可通过价值函数（Value Function）迭代优化达成最大化期望回报。一句话总结，通过探索和反馈机制，在任意环境状态下给出最优决策。这里仅列出LLM与强化学习对应的核心要素，见下表。强化学习核心要素 RL核心要素与LLM对应关系说明智能体（Agent）被微调的LLM 根据用户输入/提示（环境状态）生成响应（动作）环境（Environment）用户输入/提示（Prompt）+ 模型已经生成的内容模型根据输入内容生成响应动作（Action）模型生成的token 模型在当前环境下做出的决策奖励（Reward）奖励模型（RW）分数衡量模型生成文本的质量与偏好，指导模型优化，只在模型输出最后一个token才会打分，其他分数为0。价值函数（Value Function） RLHF中的Critic Model（评论家模型）模型输出每个token后，继续采用当前策略能带来多大的未来收益对于强化学习中的其他元素，可参考小白也能看懂的RL-PPO。 2. SFT之后，为什么还需要RLHF 在小白也能看懂的RLHF：基础篇中，从两个角度阐述为什么RLHF对LLM这么重要：a) sft的局限性: 如标注数据覆盖范围有限、无法融入人能价值观；b) RLHF是LLM微调的新范式：让模型边学遍有人类导师指导，根据导师的偏好调整模型参数。但并没有介绍为什可以这样做？这篇将从更底层的角度探讨"SFT之后，为什么还需要RLHF？"。 2.1 负反馈缺失的代价如下图所示，我们将STF和RLHF类比学生（模型）解题的过程：SFT相当于学生已经拿到了老师的答案，先看一遍答案，再模仿老师的答案；RLHF就像奋发图强的学霸党，决心绝不看老师的答案，自己尝试解题，老师根据解题步骤和结果打分，学生根据老师的反馈（奖励分数）不断内化自己的知识（调整模型参数），优化解决思路。本质上， SFT是将模型输出的概率分布接近标准答案，学习的模式是根据前文的信息预测下一个token，即 \(P(E|ABCD)\)，让下个token \(E\) 越接近标准答案越好，但它并不知道什么样的token是不能生成的，这就是负反馈缺失的代价。这会导致一个现象，为了和标准答案相似，模型可能会认为 \(P(E|ACD)\)、\(P(E|ABD)\) 等也该被提高概率，，但没有反馈机制告诉模型: "你这样回答虽然看着很像，其实并不对，下次不要这样干"。以 \(P(E|ACD)\) 为例，缺失的token B和加上B token完全可能是相反的意思。 RLHF有负反馈啊，就是reward model，具体算法上怎么做的，下文有讲解。直觉上理解，就像学生练习做题，做对了老师给满分，中间结果对，给个步骤分，做错了给零分，还会在习题册上告诉你错哪里了。 2.2 loss计算的本质 SFT在预测下个token \(E\)时，只会参考\(ABCD\)这些前文信息，不具备向后看的能力，即不会预测当前这个token对回答最终效果的影响，每个token的loss是平均的。换句话说，SFT是一种局部的、有偏的训练方法。 RLHF则不同，它具有全局观、微观视角。全局方面，RLHF首先会评估模型回答的整体效果，是好还是坏。

RLHF-PPO的原理是什么，小白也能轻松理解吗？

相关推荐