x1F345 人工智能

欢迎访问ZJ新闻社SEO

专题：x1F345 人工智能

共6篇相关文章

有哪些小规模开源项目适合LLM后训练和Agent开发？
整理了 12 个 LLM 后训练Agent 相关的 GitHub 高 star 项目，涵盖 RL 后训练、多轮交互、search agent、CLI agent 等前沿内容。...
15天前4阅读
如何从最大熵原理推导出MaxEnt RL中策略π(a|s)与Q(s, a)的关系？
考虑一步策略改进，把选 action 的概率 $pi (a|s)$ 当作变量，$sum pi (a|s) = 1$ 作为约束条件，使用拉格朗日乘子 $lambda$ 干掉。对 $V^text{new}(s)$ 求偏导，偏导数 =...
1月前3阅读
Contrastive Learning中的InfoNCE loss与互信息有何数学联系？
InfoNCE loss 可以表示互信息的下界：I(X;Y) ≥ log N - L_InfoNCE 。...
1月前3阅读
LLM | 正在尝试使用 LLaMA-Factory，是？
正在看的博客：知乎 | LLaMA-Factory QuickStart 好像是作者写的博客：知乎 | 单卡 3 小时训练专属大模型 Agent：基于 LLaMA Factory 实战其他博客：知乎 | LLaMA-Factory 全参...
1月前3阅读
正在尝试用verlLLM，有何高见？
主要参考资料： verl 的 GitHub：https:github.comvolcengineverl verl 的文档：verl documentation 安装 verl：verl documentation | Instal...
1月前4阅读
VeRL代码中LLM全面算法的有哪些细节未被发现？
目录1 代码结构简介RayPPOTrainer fit() 函数的基本流程advantage 的计算过程与 ref policy 的 KL 散度 loss 的计算VeRL 的 evaluation 代码目前对我来说比较 minor 的点2...
1月前4阅读