LLM多轮任务中,RAGEN、ArCHer、GiGPO、VinePPO如何微调?

摘要:最近读了一些 LLM 的 multi-turn RL 文章,写博客记录一下。 正在看的 GitHub 参考 repo:https:github.comyubol-boboAwesome-Multi-Turn-LLMs 目录前置知识:
最近读了一些 LLM 的 multi-turn RL 文章,写博客记录一下。 正在看的 GitHub 参考 repo:https://github.com/yubol-bobo/Awesome-Multi-Turn-LLMs 目录前置知识:使用 PPO 和 GRPO 微调 LLMRAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning[ICML 2024] ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL[NeurIPS 2025] Group-in-Group Policy Optimization for LLM Agent Training[ICML 2025] VinePPO: Refining Credit Assignment in RL Training of LLMs 前置知识:使用 PPO 和 GRPO 微调 LLM (仍待补充 RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning 信息: 应该还没有投 / 中什么会,但是 GitHub 有 2.4k star,所以可能是靠谱的,并且可能很好用。师兄也说这个代码好用,提供了很多 multi-turn 环境。 website:https://ragen-ai.github.io/ arxiv:https://arxiv.org/abs/2504.20073 pdf:https://arxiv.org/pdf/2504.20073 html:https://arxiv.org/html/2504.20073v2 GitHub:https://github.com/mll-lab-nu/RAGEN 文档:https://ragen-doc.readthedocs.io/en/latest/ 参考博客: CSDN | RAGEN 与 StarPO 框架:如何让 LLM 在多轮交互中自我进化? CSDN | RAGEN: 基于多轮强化学习的 LLM 智能体自进化理解 需要关注这篇文章的训练硬件要求。 [ICML 2024] ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL 信息: ICML 2024。应该是早期 multi-turn 文章。 website:https://yifeizhou02.github.io/archer.io/ arxiv:https://arxiv.org/abs/2402.19446 pdf:https://arxiv.org/pdf/2402.19446 html:https://arxiv.org/html/2402.19446v1 open review(没有审稿人意见可看):https://openreview.net/forum?id=b6rA0kAHT1 参考博客:CSDN | ArCHer:LLM 的高效分层强化学习框架,突破多轮决策瓶颈 应该是早期 multi-turn 文章之一。 发现 trick 意外的很多,虽然思路听起来相当简单。 感觉这篇文章是师兄对 multi-turn LLM 的印象的主要来源。 [NeurIPS 2025] Group-in-Group Policy Optimization for LLM Agent Training 信息: NeurIPS 2025,5 4 4 4 poster。
阅读全文