RStar2 是一种基于 R* 算法的改进版本,主要用于解决路径规划问题。在 Agent 训练方案中,RStar2 可以被用来训练智能体进行高效的路径规划。以下是一个基于 RStar2 的 Agent 训练方案的概述:### 1. 环境设置- **地图表示
摘要:当大模型成为Agent,我们该如何教会它“行动”?我们将看到一条演进路线:从优化单一动作(ReTool),到学习长程规划(RAGEN),再到提升思考质量本身(RStar2),最后到一种不依赖外部奖励的、更底层的经验内化方式(Early Ex
当大模型成为Agent,我们该如何教会它“行动”?纯粹的模仿学习(SFT)天花板明显,而强化学习(RL)又面临奖励稀疏、环境复杂、探索成本高的挑战。本文将带你深入四种前沿的Agent训练方案:ReTool, RAGEN, RStar2, 和 Early Experience,看它们如何巧妙地设计环境、利用反馈,让Agent不仅“能干”,而且“聪明”。
我们将看到一条演进路线:从优化单一动作(ReTool),到学习长程规划(RAGEN),再到提升思考质量本身(RStar2),最后到一种不依赖外部奖励的、更底层的经验内化方式(Early Experience)。
ReTool:让模型学会“何时以及如何”使用单一工具
ReTool: Reinforcement Learning for Strategic Tool Use in LLMs
“先学会用一个工具,再谈组合拳。”
核心目标:教会模型在推理过程中,何时调用一个单一的Code工具(如Python解释器),并通过RL优化这一决策过程。
方法精髓:交错代码执行的Rollout机制。模型生成、环境执行、结果注入、模型继续生成,形成一个动态的交互式轨迹。
ReTool是最基础的RL Agent训练,整体流程基本参考了DeepSeek R1-Zero的训练过程通过先SFT再RL的两阶段训练流程,教会模型在推理过程中何时调用单一Code工具,通过单轮或多轮工具调用进行任务完成。
🔧 Step1 - SFT
SFT部分是通过模型反馈来把原始基于文本的推理结果,转换成包含code工具调用的高质量推理样本,让模型先通过模仿学会加入code工具的推理模版。而SFT的样本格式我们在RL部分一起说。
SFT阶段保证了模型推理可以稳定的生成包含code的推理格式,那RL阶段的目标是让模型超越模仿,通过与环境(代码解释器)的交互和结果反馈,自主探索和优化工具使用的策略,例如:何时调用工具、调用什么工具、如何处理错误等。
这里提一句,当下很多伙伴采用API进行大模型调用,工具调用都通过API传参实现,而已不知道在各个模型的system prompt内部究竟是如如何处理工具参数的。其实不同模型之间差异还是比较大的,这里提供chat template 参考
DeepSeek chat Template
Antropic Tool Call
🔧 Step2 - RL
RL 样本构建 - Rollout with Interleaved Code Execution
RL样本(称为Rollout)是在训练过程中动态生成的。ReTool 的核心创新之一就是其支持交错代码执行的Rollout机制。
其交互式Rollout流程如下
模型生成:策略模型(Policy LLM)接收问题,并开始生成响应。它使用特定的提示模板(论文中图7),指导其输出格式。
代码触发:当模型生成一个代码块,并以 标签结束时,生成过程会暂停。
代码执行:解析出代码块中的代码,会发送到一个安全的代码沙箱环境中执行(哈哈就是前两章我们聊的类似E2B的沙箱方案)
观测注入:沙箱的执行结果(无论是成功的计算结果还是错误信息)被封装在 ... 标签中,并回传给模型。
继续生成:模型将执行结果作为上下文的一部分,继续生成后续的推理或下一个代码块。
轨迹完成:重复此过程,直到模型生成最终答案。最终形成一个完整的 混合推理轨迹:[t1, c1, f1, t2, c2, f2, ..., o]。
RL 训练方式
算法:PPO
奖励设计:follow DeepSeek,仅基于最终答案的正确性。
关键训练技术:
Interpreter Feedback Masking:在计算PPO损失时,屏蔽 <interpreter> 标签内的所有Token(因为这不是模型生成的)。这是保证训练稳定性的关键。
KV-Cache Reuse:当代码执行时,缓存之前生成的所有KV-Cache,只计算反馈Token的新Cache,大幅降低内存开销,加速训练。
异步代码沙箱:构建一个分布式的、异步的代码执行环境,避免代码执行成为训练瓶颈。
RAGEN:在多轮随机环境中学会“深谋远虑”
RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning
“人生不是单步决策,Agent也是。”
核心目标:在多轮、随机性的环境(游戏)中,训练模型的长程规划与决策能力。
方法精髓:基于完整轨迹的强化学习。模型不仅要输出动作,还要输出思考过程,并对整个思考-行动序列进行优化。
