RLHF-PPO的原理是什么,小白也能轻松理解吗?

摘要:原文: https:mp.weixin.qq.coms8O7W8--x14-b1d3M9IS_3w LLM-RL往期文章推荐 小白也能看懂的RL-PPO 收藏!强化学习从入门到封神:5 本经典教材 + 8 大实战项
原文: https://mp.weixin.qq.com/s/8O7W8--x14-b1d3M9IS_3w LLM-RL往期文章推荐 小白也能看懂的RL-PPO 收藏!强化学习从入门到封神:5 本经典教材 + 8 大实战项目 + 7个免费视频,一站式搞定 小白也能看懂的RLHF:基础篇 在上一篇小白也能看懂的RLHF:基础篇中,我们从直觉的层面阐述了RLHF,中间有许多不严谨的地方,这一篇将从更加严谨的理论层面介绍RLHF。 这篇将从强化学习中的核心元素与LLM任务的对应关系开始,逐步引入RLHF解决了SFT中的什么问题。再讲解RLHF具体是怎么做的,如Reward Model(奖励模型)、Actor Model (演员模型)、Reference Model(参考模型)和Critic Model(评论家模型)这些模型各自的运行机制,以及它们是如何协作完成RLHF的,重点讨论了PPO算法的Actor模型、Ctritic模型的目标函数。最后,结合RLHF的计算过程,重温下RLHF是如何解决stf存在的问题。 1. 强化学习原理 强化学习(Reinforcement Learning, RL)作为机器学习的重要分支,目标是让智能体(agent)与环境(environment)不断交互,学习任意环境状态下的最优行为策略(policy),最终实现期望回报的最大化。形式上,可通过价值函数(Value Function)迭代优化达成最大化期望回报。 一句话总结,通过探索和反馈机制,在任意环境状态下给出最优决策。 这里仅列出LLM与强化学习对应的核心要素,见下表。 强化学习核心要素 RL核心要素与LLM对应关系 说明 智能体(Agent) 被微调的LLM 根据用户输入/提示(环境状态)生成响应(动作) 环境(Environment) 用户输入/提示(Prompt)+ 模型已经生成的内容 模型根据输入内容生成响应 动作(Action) 模型生成的token 模型在当前环境下做出的决策 奖励(Reward) 奖励模型(RW)分数 衡量模型生成文本的质量与偏好,指导模型优化,只在模型输出最后一个token才会打分,其他分数为0。 价值函数(Value Function) RLHF中的Critic Model(评论家模型) 模型输出每个token后,继续采用当前策略能带来多大的未来收益 对于强化学习中的其他元素,可参考小白也能看懂的RL-PPO。 2. SFT之后,为什么还需要RLHF 在小白也能看懂的RLHF:基础篇中,从两个角度阐述为什么RLHF对LLM这么重要:a) sft的局限性: 如标注数据覆盖范围有限、无法融入人能价值观;b) RLHF是LLM微调的新范式:让模型边学遍有人类导师指导,根据导师的偏好调整模型参数。但并没有介绍为什可以这样做?这篇将从更底层的角度探讨"SFT之后,为什么还需要RLHF?"。 2.1 负反馈缺失的代价 如下图所示,我们将STF和RLHF类比学生(模型)解题的过程:SFT相当于学生已经拿到了老师的答案,先看一遍答案,再模仿老师的答案;RLHF就像奋发图强的学霸党,决心绝不看老师的答案,自己尝试解题,老师根据解题步骤和结果打分,学生根据老师的反馈(奖励分数)不断内化自己的知识(调整模型参数),优化解决思路。 本质上, SFT是将模型输出的概率分布接近标准答案,学习的模式是根据前文的信息预测下一个token,即 \(P(E|ABCD)\),让下个token \(E\) 越接近标准答案越好,但它并不知道什么样的token是不能生成的,这就是负反馈缺失的代价。 这会导致一个现象,为了和标准答案相似,模型可能会认为 \(P(E|ACD)\)、\(P(E|ABD)\) 等也该被提高概率,,但没有反馈机制告诉模型: "你这样回答虽然看着很像,其实并不对,下次不要这样干"。以 \(P(E|ACD)\) 为例,缺失的token B和加上B token完全可能是相反的意思。 RLHF有负反馈啊,就是reward model,具体算法上怎么做的,下文有讲解。直觉上理解,就像学生练习做题,做对了老师给满分,中间结果对,给个步骤分,做错了给零分,还会在习题册上告诉你错哪里了。 2.2 loss计算的本质 SFT在预测下个token \(E\)时,只会参考\(ABCD\)这些前文信息,不具备向后看的能力,即不会预测当前这个token对回答最终效果的影响,每个token的loss是平均的。换句话说,SFT是一种局部的、有偏的训练方法。 RLHF则不同,它具有全局观、微观视角。全局方面,RLHF首先会评估模型回答的整体效果,是好还是坏。
阅读全文