LLM多轮任务中,RAGEN、ArCHer、GiGPO、VinePPO如何微调?
摘要:最近读了一些 LLM 的 multi-turn RL 文章,写博客记录一下。 正在看的 GitHub 参考 repo:https:github.comyubol-boboAwesome-Multi-Turn-LLMs 目录前置知识:
最近读了一些 LLM 的 multi-turn RL 文章,写博客记录一下。
正在看的 GitHub 参考 repo:https://github.com/yubol-bobo/Awesome-Multi-Turn-LLMs
目录前置知识:使用 PPO 和 GRPO 微调 LLMRAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning[ICML 2024] ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL[NeurIPS 2025] Group-in-Group Policy Optimization for LLM Agent Training[ICML 2025] VinePPO: Refining Credit Assignment in RL Training of LLMs
前置知识:使用 PPO 和 GRPO 微调 LLM
(仍待补充
RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning
信息:
应该还没有投 / 中什么会,但是 GitHub 有 2.4k star,所以可能是靠谱的,并且可能很好用。师兄也说这个代码好用,提供了很多 multi-turn 环境。
website:https://ragen-ai.github.io/
arxiv:https://arxiv.org/abs/2504.20073
pdf:https://arxiv.org/pdf/2504.20073
html:https://arxiv.org/html/2504.20073v2
GitHub:https://github.com/mll-lab-nu/RAGEN
文档:https://ragen-doc.readthedocs.io/en/latest/
参考博客:
CSDN | RAGEN 与 StarPO 框架:如何让 LLM 在多轮交互中自我进化?
CSDN | RAGEN: 基于多轮强化学习的 LLM 智能体自进化理解
需要关注这篇文章的训练硬件要求。
[ICML 2024] ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL
信息:
ICML 2024。应该是早期 multi-turn 文章。
website:https://yifeizhou02.github.io/archer.io/
arxiv:https://arxiv.org/abs/2402.19446
pdf:https://arxiv.org/pdf/2402.19446
html:https://arxiv.org/html/2402.19446v1
open review(没有审稿人意见可看):https://openreview.net/forum?id=b6rA0kAHT1
参考博客:CSDN | ArCHer:LLM 的高效分层强化学习框架,突破多轮决策瓶颈
应该是早期 multi-turn 文章之一。
发现 trick 意外的很多,虽然思路听起来相当简单。
感觉这篇文章是师兄对 multi-turn LLM 的印象的主要来源。
[NeurIPS 2025] Group-in-Group Policy Optimization for LLM Agent Training
信息:
NeurIPS 2025,5 4 4 4 poster。
