什么是让小白也能看懂的人工智能强化学习与人类反馈？

摘要：原文: https:mp.weixin.qq.coms4_6CBXMJhqmiYKSzsAXncg 人类反馈强化学习（Reinforcement Learning from Human Feedback，RLHF)是释放大语言模型（

原文: https://mp.weixin.qq.com/s/4_6CBXMJhqmiYKSzsAXncg 人类反馈强化学习（Reinforcement Learning from Human Feedback，RLHF)是释放大语言模型（LLM）巨大潜力的关键，OpenAI在2020年发布的GPT-3模型无疑是最好的证明。时隔两年，OpenAI再次发布经过RLHF训练后的LLM——ChatGPT，一夜爆火、吸引大量用户关注，并树立了对话式人工智能新标杆的。在RLHF之前，LLM训练过程通常包括预训练阶段和微调两个阶段，前者是学习语言的一般规律，后者可以让模型学会完成特定任务。如果你想解决各类NLP任务的话，直接让GPT-3帮你完成就行，但是OpenAI需要的是一个符合人类价值观、偏好和期望的对话式人工智能。OpenAI官方也有相应的声明， "Our goal is to advance digital intelligence in the way that is most likely to benefit humanity as a whole." - OpenAI Founding Statement (Dec. 2015) 于是，作为LLM训练的第三阶段RLHF，通过引入人类反馈实现最初的伟大目标。简单说，人类评估者会对模型的输出进行评分或排序反馈，根据反馈结果更新模型参数。一、为什么RLHF对LLM这么重要？下面从两个角度讨论RLHF对LLM的重要性传统监督微调方法的局限性 LLM微调新范式 1.1 传统监督微调方法的局限性这种方法就像给LLM一本固定的习题集，让LLM按照标准答案学习，但这个习题集依赖于静态数据集，在范围、语境和多样性上较为有限，更为关键的是，无法在模型中融入人类价值观、伦理道德或社会规则等。还有一点，在处理主观判断或模糊性的任务时——不同用户对答案会有不同的预期，比如问模式"周末去哪里玩合适？"，有人可能喜欢热闹的地方，也有喜欢清静点的场所，但传统微调方法在这里会显得力不从心，只盯着习题集里的标准答案来回答，而RLHF可以有效解决这些问题。 1.2 LLM微调新范式 RLHF的核心原理将人类反馈直接融入训练中，使模型能更好地与人类的价值观、偏好保持一致。传统方法是对着固定的习题集"死学"，现在是边学遍有人类导师指导，根据导师的指导方向调整模型参数。这样，模型在与人类对话时，更容易领会各种弯弯绕绕、言外之意。看到这里可能有人会问，既然要符合人的偏好，那直接做一本人类偏好习题集，让AI照着学不就行了？为啥非要搞RLHF这么复杂？咱们举个例子说明下。假设我们需要训练一个内容摘要模型，目标是把长文章浓缩成简短、有用的摘要。按照传统监督微调方法，需要准备大批<长文章，标准摘要>这样的配对材料作为训练数据，以监督学习的方式对LLM进行训练即可。实际情况要复杂的多，对于同一篇文章，不同的人可能会给出同样优秀，但表达方式或语言风格差异较大的摘要。以一篇电影影评为例，有人关心剧情走向，摘要就会侧重故事线；有人在意演员表现，摘要就得突出演技评价。到这里想必大家明白了，传统的训练方法确实能完成写摘要的任务，但没有把握语言的微妙平衡——怎么在不丢失关键信息的前提下，写出符合当前用户需求的摘要。 RLHF的精妙之处：不依赖习题集中的标准答案，而是先让LLM先写几个摘要，然后人类反馈哪个更符合当前需求，比如用户明确说要给老人看的新闻摘要, LLM写了两个版本，一个全是专业术语，一个口语化、通俗易懂，老人会反馈第二个更好。LLM在收到反馈后，就明白以后碰到类似需求该如何回答，这种能够精准遵从人类指令的能力，是RLHF的独特优势。上图中，每个示例都包含长文本输入、两个备选摘要、一个标签（用于指示人类更倾向于哪个摘要）。通过直接将人类偏好以标签形式传递给模型，确保其与人类判断保持一致。二、RLHF训练过程 RLHF 流程包括三个步骤：收集人类反馈。训练奖励模型。使用奖励模型对大语言模型进行微调。其中，实现流程最后一步的算法是近端策略优化（PPO）。 2.1 收集人类反馈 RLHF的第一步是收集偏好数据集。通常情况下，数据集中的每个样本都包含一个提示词、LLM对该提示生成的两个不同回答、偏好标签，偏好标签用以标记两个回答中，哪一个是人类评估者认为更优的。数据集的具体格式会有所差异，但不影响整体功能。图1数据集的每个样本包含四个字段：Input text, Summary 1, Summary 2, and Preference。

什么是让小白也能看懂的人工智能强化学习与人类反馈？

相关推荐