如何训练Deep Research智能体，使其想的少反而做得好？

摘要：想的少反而做得好？一文读懂如何训练Deep Research智能体解读论文：How to Train Your Deep Research Agent? Prompt, Reward, and Policy Optimization in

想的少反而做得好？一文读懂如何训练Deep Research智能体解读论文：How to Train Your Deep Research Agent? Prompt, Reward, and Policy Optimization in Search-R1（arXiv: 2602.19526），来自中科院自动化所与美团。引言：Deep Research为什么需要强化学习？你有没有想过，当你向AI提出一个复杂问题——比如"2010年哈德逊县495号公路17号出口所在城镇的人口是多少？"——AI是怎么一步步找到答案的？这类问题不是靠"一次性推理"就能解决的。AI需要像一个研究员一样：先搜索、再阅读、再判断信息够不够、不够就继续搜……这种"多轮检索+逐步推理+最终决策"的范式，就是当下火热的Deep Research。近年来，强化学习（RL）被引入Deep Research训练中，因为这个过程天然就是一个"长程交互决策"问题——智能体需要在稀疏反馈下做出一系列搜索和回答的决策，这与RL的核心思想高度契合。然而，现有的RL训练方案五花八门：有人用PPO，有人用GRPO，有人用REINFORCE；奖励函数有用Exact Match的，也有用F1的；提示模板更是各有各的设计。到底哪些配置真正在起作用？这个问题一直没有系统性的回答。本文要解读的这篇论文，正是第一个对Deep Research中RL训练进行全面、系统性研究的工作。研究团队沿着三个解耦的维度——提示模板、奖励函数、策略优化——逐一拆解，最终提出了一个更强的基线方法Search-R1++。核心框架：三个维度，一个统一视角论文以Search-R1作为基础框架，严格复现其架构、数据集和检索器，在此受控环境下系统地研究RL训练的三个关键组件：提示模板（Prompt Template）：指导智能体如何组织推理和搜索行为奖励函数（Reward Function）：定义什么样的输出是"好的" 策略优化（Policy Optimization）：选择哪种RL算法来更新策略评估则围绕三个核心指标展开：预测准确率、训练稳定性、推理成本。实验使用Qwen2.5-3B和Qwen2.5-7B两个模型，在7个问答基准上进行评测，涵盖单跳QA（NQ、TriviaQA、PopQA）和多跳QA（HotpotQA、2WikiMultiHopQA、Musique、Bamboogle）。发现一：想得越多，反而做得越差这是论文中最反直觉的发现之一。在数学推理、代码生成等"System-2"任务中，我们通常认为链式思维（Chain-of-Thought）越长越好——多想一步，答案就更准一些。但在Deep Research场景下，情况恰恰相反。研究团队对Search-R1生成的轨迹做了统计分析，发现：显式推理token越多，准确率越低检索到的信息token越多，准确率也越低这意味着，在"搜索-阅读-回答"这种交互式任务中，冗长的推理不仅没有帮助，反而成了负担。快思考 vs 慢思考基于这一观察，论文设计了两种提示模板进行对比：慢思考模板（Slow Thinking）：要求模型每次获取新信息后，先在<think>...</think>标签内进行显式推理，然后再决定搜索或回答。这是Search-R1等现有系统普遍采用的方式。快思考模板（Fast Thinking）：直接让模型输出搜索查询或最终答案，不强制要求中间推理步骤。打个比方：慢思考就像一个人每查一条资料都要写一段分析笔记，而快思考则像一个经验丰富的研究员，看完资料直接判断"够了，答案是这个"或"还不够，再搜这个"。实验结果非常明确：模型慢思考（Search-R1）快思考（本文） Qwen2.5-7B 0.403 0.422 Qwen2.5-3B 0.289 0.297 慢思考为什么会崩溃？更关键的是，慢思考模板在训练过程中容易出现训练崩溃。论文通过详细的训练动态分析揭示了崩溃的机制：训练中期，模型开始在单次决策前生成大量空的或无意义的<think></think>标签 <think>标签数量激增与性能骤降高度同步 Pearson相关分析显示，崩溃阶段<think>标签数量与奖励之间存在正相关（0.4310），而稳定训练时几乎无相关（-0.0465）这说明了什么？在PPO的稀疏奖励结构下，模型发现了一条"捷径"：堆叠<think>标签似乎与更高的回报相关联。

如何训练Deep Research智能体，使其想的少反而做得好？

相关推荐