共2篇相关文章
SFT 简介 (1) 什么是监督微调 监督微调(SFT)通过利用特定于任务的标签数据集将预训练的 LLM 适应特定任务。SFT 的数据集通常组织如下,一条样本包含一个指令和对应的回答:(D={(I_K,A_K)}_{K=1}^N)...
RL 简介 (1) 定义 强化学习(Reinforcement Learning)是一种机器学习方法,用于解决需要在一定环境下通过与环境交互来学习最有行为策略的问题。其核心思想是通过试错和奖励机制来指导智能体(Agent)学习如何在不同情境...