LLM 后训练系列

欢迎访问ZJ新闻社SEO

专题：LLM 后训练系列

共2篇相关文章

监督微调（SFT）在应用中如何实现？
SFT 简介 (1) 什么是监督微调监督微调（SFT）通过利用特定于任务的标签数据集将预训练的 LLM 适应特定任务。SFT 的数据集通常组织如下，一条样本包含一个指令和对应的回答：(D={(I_K,A_K)}_{K=1}^N)...
1月前6阅读
强化学习基础（RL）中，策略如何优化决策过程？
RL 简介 (1) 定义强化学习（Reinforcement Learning）是一种机器学习方法，用于解决需要在一定环境下通过与环境交互来学习最有行为策略的问题。其核心思想是通过试错和奖励机制来指导智能体（Agent）学习如何在不同情境...
1月前8阅读