RStar2 是一种基于 R* 算法的改进版本，主要用于解决路径规划问题。在 Agent 训练方案中，RStar2 可以被用来训练智能体进行高效的路径规划。以下是一个基于 RStar2 的 Agent 训练方案的概述：### 1. 环境设置- **地图表示

摘要：当大模型成为Agent，我们该如何教会它“行动”？我们将看到一条演进路线：从优化单一动作（ReTool），到学习长程规划（RAGEN），再到提升思考质量本身（RStar2），最后到一种不依赖外部奖励的、更底层的经验内化方式（Early Ex

当大模型成为Agent，我们该如何教会它“行动”？纯粹的模仿学习（SFT）天花板明显，而强化学习（RL）又面临奖励稀疏、环境复杂、探索成本高的挑战。本文将带你深入四种前沿的Agent训练方案：ReTool, RAGEN, RStar2, 和 Early Experience，看它们如何巧妙地设计环境、利用反馈，让Agent不仅“能干”，而且“聪明”。我们将看到一条演进路线：从优化单一动作（ReTool），到学习长程规划（RAGEN），再到提升思考质量本身（RStar2），最后到一种不依赖外部奖励的、更底层的经验内化方式（Early Experience）。 ReTool：让模型学会“何时以及如何”使用单一工具 ReTool: Reinforcement Learning for Strategic Tool Use in LLMs “先学会用一个工具，再谈组合拳。” 核心目标：教会模型在推理过程中，何时调用一个单一的Code工具（如Python解释器），并通过RL优化这一决策过程。方法精髓：交错代码执行的Rollout机制。模型生成、环境执行、结果注入、模型继续生成，形成一个动态的交互式轨迹。 ReTool是最基础的RL Agent训练，整体流程基本参考了DeepSeek R1-Zero的训练过程通过先SFT再RL的两阶段训练流程，教会模型在推理过程中何时调用单一Code工具，通过单轮或多轮工具调用进行任务完成。 🔧 Step1 - SFT SFT部分是通过模型反馈来把原始基于文本的推理结果，转换成包含code工具调用的高质量推理样本，让模型先通过模仿学会加入code工具的推理模版。而SFT的样本格式我们在RL部分一起说。 SFT阶段保证了模型推理可以稳定的生成包含code的推理格式，那RL阶段的目标是让模型超越模仿，通过与环境（代码解释器）的交互和结果反馈，自主探索和优化工具使用的策略，例如：何时调用工具、调用什么工具、如何处理错误等。这里提一句，当下很多伙伴采用API进行大模型调用，工具调用都通过API传参实现，而已不知道在各个模型的system prompt内部究竟是如如何处理工具参数的。其实不同模型之间差异还是比较大的，这里提供chat template 参考 DeepSeek chat Template Antropic Tool Call 🔧 Step2 - RL RL 样本构建 - Rollout with Interleaved Code Execution RL样本（称为Rollout）是在训练过程中动态生成的。ReTool 的核心创新之一就是其支持交错代码执行的Rollout机制。其交互式Rollout流程如下模型生成：策略模型（Policy LLM）接收问题，并开始生成响应。它使用特定的提示模板（论文中图7），指导其输出格式。代码触发：当模型生成一个代码块，并以标签结束时，生成过程会暂停。代码执行：解析出代码块中的代码，会发送到一个安全的代码沙箱环境中执行（哈哈就是前两章我们聊的类似E2B的沙箱方案）观测注入：沙箱的执行结果（无论是成功的计算结果还是错误信息）被封装在 ... 标签中，并回传给模型。继续生成：模型将执行结果作为上下文的一部分，继续生成后续的推理或下一个代码块。轨迹完成：重复此过程，直到模型生成最终答案。最终形成一个完整的混合推理轨迹：[t1, c1, f1, t2, c2, f2, ..., o]。 RL 训练方式算法：PPO 奖励设计：follow DeepSeek，仅基于最终答案的正确性。关键训练技术： Interpreter Feedback Masking：在计算PPO损失时，屏蔽 <interpreter> 标签内的所有Token（因为这不是模型生成的）。这是保证训练稳定性的关键。 KV-Cache Reuse：当代码执行时，缓存之前生成的所有KV-Cache，只计算反馈Token的新Cache，大幅降低内存开销，加速训练。异步代码沙箱：构建一个分布式的、异步的代码执行环境，避免代码执行成为训练瓶颈。 RAGEN：在多轮随机环境中学会“深谋远虑” RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning “人生不是单步决策，Agent也是。” 核心目标：在多轮、随机性的环境（游戏）中，训练模型的长程规划与决策能力。方法精髓：基于完整轨迹的强化学习。模型不仅要输出动作，还要输出思考过程，并对整个思考-行动序列进行优化。

RStar2 是一种基于 R* 算法的改进版本，主要用于解决路径规划问题。在 Agent 训练方案中，RStar2 可以被用来训练智能体进行高效的路径规划。以下是一个基于 RStar2 的 Agent 训练方案的概述：### 1. 环境设置- **地图表示

相关推荐