LLM多轮任务中，RAGEN、ArCHer、GiGPO、VinePPO如何微调？

摘要：最近读了一些 LLM 的 multi-turn RL 文章，写博客记录一下。正在看的 GitHub 参考 repo：https:github.comyubol-boboAwesome-Multi-Turn-LLMs 目录前置知识：

最近读了一些 LLM 的 multi-turn RL 文章，写博客记录一下。正在看的 GitHub 参考 repo：https://github.com/yubol-bobo/Awesome-Multi-Turn-LLMs 目录前置知识：使用 PPO 和 GRPO 微调 LLMRAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning[ICML 2024] ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL[NeurIPS 2025] Group-in-Group Policy Optimization for LLM Agent Training[ICML 2025] VinePPO: Refining Credit Assignment in RL Training of LLMs 前置知识：使用 PPO 和 GRPO 微调 LLM （仍待补充 RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning 信息：应该还没有投 / 中什么会，但是 GitHub 有 2.4k star，所以可能是靠谱的，并且可能很好用。师兄也说这个代码好用，提供了很多 multi-turn 环境。 website：https://ragen-ai.github.io/ arxiv：https://arxiv.org/abs/2504.20073 pdf：https://arxiv.org/pdf/2504.20073 html：https://arxiv.org/html/2504.20073v2 GitHub：https://github.com/mll-lab-nu/RAGEN 文档：https://ragen-doc.readthedocs.io/en/latest/ 参考博客： CSDN | RAGEN 与 StarPO 框架：如何让 LLM 在多轮交互中自我进化？ CSDN | RAGEN: 基于多轮强化学习的 LLM 智能体自进化理解需要关注这篇文章的训练硬件要求。 [ICML 2024] ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL 信息： ICML 2024。应该是早期 multi-turn 文章。 website：https://yifeizhou02.github.io/archer.io/ arxiv：https://arxiv.org/abs/2402.19446 pdf：https://arxiv.org/pdf/2402.19446 html：https://arxiv.org/html/2402.19446v1 open review（没有审稿人意见可看）：https://openreview.net/forum?id=b6rA0kAHT1 参考博客：CSDN | ArCHer：LLM 的高效分层强化学习框架，突破多轮决策瓶颈应该是早期 multi-turn 文章之一。发现 trick 意外的很多，虽然思路听起来相当简单。感觉这篇文章是师兄对 multi-turn LLM 的印象的主要来源。 [NeurIPS 2025] Group-in-Group Policy Optimization for LLM Agent Training 信息： NeurIPS 2025，5 4 4 4 poster。

LLM多轮任务中，RAGEN、ArCHer、GiGPO、VinePPO如何微调？

相关推荐