什么是让小白也能看懂的人工智能强化学习与人类反馈?

摘要:原文: https:mp.weixin.qq.coms4_6CBXMJhqmiYKSzsAXncg 人类反馈强化学习(Reinforcement Learning from Human Feedback,RLHF)是释放大语言模型(
原文: https://mp.weixin.qq.com/s/4_6CBXMJhqmiYKSzsAXncg 人类反馈强化学习(Reinforcement Learning from Human Feedback,RLHF)是释放大语言模型(LLM)巨大潜力的关键,OpenAI在2020年发布的GPT-3模型无疑是最好的证明。时隔两年,OpenAI再次发布经过RLHF训练后的LLM——ChatGPT,一夜爆火、吸引大量用户关注,并树立了对话式人工智能新标杆的。 在RLHF之前,LLM训练过程通常包括预训练阶段和微调两个阶段,前者是学习语言的一般规律,后者可以让模型学会完成特定任务。如果你想解决各类NLP任务的话,直接让GPT-3帮你完成就行,但是OpenAI需要的是一个符合人类价值观、偏好和期望的对话式人工智能。OpenAI官方也有相应的声明, "Our goal is to advance digital intelligence in the way that is most likely to benefit humanity as a whole." - OpenAI Founding Statement (Dec. 2015) 于是,作为LLM训练的第三阶段RLHF,通过引入人类反馈实现最初的伟大目标。简单说,人类评估者会对模型的输出进行评分或排序反馈,根据反馈结果更新模型参数。 一、为什么RLHF对LLM这么重要? 下面从两个角度讨论RLHF对LLM的重要性 传统监督微调方法的局限性 LLM微调新范式 1.1 传统监督微调方法的局限性 这种方法就像给LLM一本固定的习题集,让LLM按照标准答案学习,但这个习题集依赖于静态数据集,在范围、语境和多样性上较为有限,更为关键的是,无法在模型中融入人类价值观、伦理道德或社会规则等。 还有一点,在处理主观判断或模糊性的任务时——不同用户对答案会有不同的预期,比如问模式"周末去哪里玩合适?",有人可能喜欢热闹的地方,也有喜欢清静点的场所,但传统微调方法在这里会显得力不从心,只盯着习题集里的标准答案来回答,而RLHF可以有效解决这些问题。 1.2 LLM微调新范式 RLHF的核心原理将人类反馈直接融入训练中,使模型能更好地与人类的价值观、偏好保持一致。传统方法是对着固定的习题集"死学",现在是边学遍有人类导师指导,根据导师的指导方向调整模型参数。这样,模型在与人类对话时,更容易领会各种弯弯绕绕、言外之意。 看到这里可能有人会问,既然要符合人的偏好,那直接做一本人类偏好习题集,让AI照着学不就行了?为啥非要搞RLHF这么复杂?咱们举个例子说明下。 假设我们需要训练一个内容摘要模型,目标是把长文章浓缩成简短、有用的摘要。按照传统监督微调方法,需要准备大批<长文章,标准摘要>这样的配对材料作为训练数据,以监督学习的方式对LLM进行训练即可。 实际情况要复杂的多,对于同一篇文章,不同的人可能会给出同样优秀,但表达方式或语言风格差异较大的摘要。以一篇电影影评为例,有人关心剧情走向,摘要就会侧重故事线;有人在意演员表现,摘要就得突出演技评价。 到这里想必大家明白了,传统的训练方法确实能完成写摘要的任务,但没有把握语言的微妙平衡——怎么在不丢失关键信息的前提下,写出符合当前用户需求的摘要。 RLHF的精妙之处:不依赖习题集中的标准答案,而是先让LLM先写几个摘要,然后人类反馈哪个更符合当前需求,比如用户明确说要给老人看的新闻摘要, LLM写了两个版本,一个全是专业术语,一个口语化、通俗易懂,老人会反馈第二个更好。LLM在收到反馈后,就明白以后碰到类似需求该如何回答,这种能够精准遵从人类指令的能力,是RLHF的独特优势。 上图中,每个示例都包含长文本输入、两个备选摘要、一个标签(用于指示人类更倾向于哪个摘要)。通过直接将人类偏好以标签形式传递给模型,确保其与人类判断保持一致。 二、RLHF训练过程 RLHF 流程包括三个步骤: 收集人类反馈。 训练奖励模型。 使用奖励模型对大语言模型进行微调。 其中,实现流程最后一步的算法是近端策略优化(PPO)。 2.1 收集人类反馈 RLHF的第一步是收集偏好数据集。通常情况下,数据集中的每个样本都包含一个提示词、LLM对该提示生成的两个不同回答、偏好标签,偏好标签用以标记两个回答中,哪一个是人类评估者认为更优的。 数据集的具体格式会有所差异,但不影响整体功能。图1数据集的每个样本包含四个字段:Input text, Summary 1, Summary 2, and Preference。
阅读全文