专题:x1F345 人工智能
共6篇相关文章

有哪些小规模开源项目适合LLM后训练和Agent开发?
整理了 12 个 LLM 后训练Agent 相关的 GitHub 高 star 项目,涵盖 RL 后训练、多轮交互、search agent、CLI agent 等前沿内容。...

如何从最大熵原理推导出MaxEnt RL中策略π(a|s)与Q(s, a)的关系?
考虑一步策略改进,把选 action 的概率 $pi (a|s)$ 当作变量,$sum pi (a|s) = 1$ 作为约束条件,使用拉格朗日乘子 $lambda$ 干掉。对 $V^text{new}(s)$ 求偏导,偏导数 =...

Contrastive Learning中的InfoNCE loss与互信息有何数学联系?
InfoNCE loss 可以表示互信息的下界:I(X;Y) ≥ log N - L_InfoNCE 。...

LLM | 正在尝试使用 LLaMA-Factory,是?
正在看的博客:知乎 | LLaMA-Factory QuickStart 好像是作者写的博客:知乎 | 单卡 3 小时训练专属大模型 Agent:基于 LLaMA Factory 实战 其他博客: 知乎 | LLaMA-Factory 全参...

正在尝试用verlLLM,有何高见?
主要参考资料: verl 的 GitHub:https:github.comvolcengineverl verl 的文档:verl documentation 安装 verl:verl documentation | Instal...

VeRL代码中LLM全面算法的有哪些细节未被发现?
目录1 代码结构简介RayPPOTrainer fit() 函数的基本流程advantage 的计算过程与 ref policy 的 KL 散度 loss 的计算VeRL 的 evaluation 代码目前对我来说比较 minor 的点2...
