如何训练Deep Research智能体,使其想的少反而做得好?
摘要:想的少反而做得好?一文读懂如何训练Deep Research智能体 解读论文:How to Train Your Deep Research Agent? Prompt, Reward, and Policy Optimization in
想的少反而做得好?一文读懂如何训练Deep Research智能体
解读论文:How to Train Your Deep Research Agent? Prompt, Reward, and Policy Optimization in Search-R1(arXiv: 2602.19526),来自中科院自动化所与美团。
引言:Deep Research为什么需要强化学习?
你有没有想过,当你向AI提出一个复杂问题——比如"2010年哈德逊县495号公路17号出口所在城镇的人口是多少?"——AI是怎么一步步找到答案的?
这类问题不是靠"一次性推理"就能解决的。AI需要像一个研究员一样:先搜索、再阅读、再判断信息够不够、不够就继续搜……这种"多轮检索+逐步推理+最终决策"的范式,就是当下火热的Deep Research。
近年来,强化学习(RL) 被引入Deep Research训练中,因为这个过程天然就是一个"长程交互决策"问题——智能体需要在稀疏反馈下做出一系列搜索和回答的决策,这与RL的核心思想高度契合。
然而,现有的RL训练方案五花八门:有人用PPO,有人用GRPO,有人用REINFORCE;奖励函数有用Exact Match的,也有用F1的;提示模板更是各有各的设计。到底哪些配置真正在起作用? 这个问题一直没有系统性的回答。
本文要解读的这篇论文,正是第一个对Deep Research中RL训练进行全面、系统性研究的工作。研究团队沿着三个解耦的维度——提示模板、奖励函数、策略优化——逐一拆解,最终提出了一个更强的基线方法Search-R1++。
核心框架:三个维度,一个统一视角
论文以Search-R1作为基础框架,严格复现其架构、数据集和检索器,在此受控环境下系统地研究RL训练的三个关键组件:
提示模板(Prompt Template):指导智能体如何组织推理和搜索行为
奖励函数(Reward Function):定义什么样的输出是"好的"
策略优化(Policy Optimization):选择哪种RL算法来更新策略
评估则围绕三个核心指标展开:预测准确率、训练稳定性、推理成本。
实验使用Qwen2.5-3B和Qwen2.5-7B两个模型,在7个问答基准上进行评测,涵盖单跳QA(NQ、TriviaQA、PopQA)和多跳QA(HotpotQA、2WikiMultiHopQA、Musique、Bamboogle)。
发现一:想得越多,反而做得越差
这是论文中最反直觉的发现之一。
在数学推理、代码生成等"System-2"任务中,我们通常认为链式思维(Chain-of-Thought)越长越好——多想一步,答案就更准一些。但在Deep Research场景下,情况恰恰相反。
研究团队对Search-R1生成的轨迹做了统计分析,发现:
显式推理token越多,准确率越低
检索到的信息token越多,准确率也越低
这意味着,在"搜索-阅读-回答"这种交互式任务中,冗长的推理不仅没有帮助,反而成了负担。
快思考 vs 慢思考
基于这一观察,论文设计了两种提示模板进行对比:
慢思考模板(Slow Thinking):要求模型每次获取新信息后,先在<think>...</think>标签内进行显式推理,然后再决定搜索或回答。这是Search-R1等现有系统普遍采用的方式。
快思考模板(Fast Thinking):直接让模型输出搜索查询或最终答案,不强制要求中间推理步骤。
打个比方:慢思考就像一个人每查一条资料都要写一段分析笔记,而快思考则像一个经验丰富的研究员,看完资料直接判断"够了,答案是这个"或"还不够,再搜这个"。
实验结果非常明确:
模型
慢思考(Search-R1)
快思考(本文)
Qwen2.5-7B
0.403
0.422
Qwen2.5-3B
0.289
0.297
慢思考为什么会崩溃?
更关键的是,慢思考模板在训练过程中容易出现训练崩溃。
论文通过详细的训练动态分析揭示了崩溃的机制:
训练中期,模型开始在单次决策前生成大量空的或无意义的<think></think>标签
<think>标签数量激增与性能骤降高度同步
Pearson相关分析显示,崩溃阶段<think>标签数量与奖励之间存在正相关(0.4310),而稳定训练时几乎无相关(-0.0465)
这说明了什么?在PPO的稀疏奖励结构下,模型发现了一条"捷径":堆叠<think>标签似乎与更高的回报相关联。
