如何训练Deep Research智能体,使其想的少反而做得好?

摘要:想的少反而做得好?一文读懂如何训练Deep Research智能体 解读论文:How to Train Your Deep Research Agent? Prompt, Reward, and Policy Optimization in
想的少反而做得好?一文读懂如何训练Deep Research智能体 解读论文:How to Train Your Deep Research Agent? Prompt, Reward, and Policy Optimization in Search-R1(arXiv: 2602.19526),来自中科院自动化所与美团。 引言:Deep Research为什么需要强化学习? 你有没有想过,当你向AI提出一个复杂问题——比如"2010年哈德逊县495号公路17号出口所在城镇的人口是多少?"——AI是怎么一步步找到答案的? 这类问题不是靠"一次性推理"就能解决的。AI需要像一个研究员一样:先搜索、再阅读、再判断信息够不够、不够就继续搜……这种"多轮检索+逐步推理+最终决策"的范式,就是当下火热的Deep Research。 近年来,强化学习(RL) 被引入Deep Research训练中,因为这个过程天然就是一个"长程交互决策"问题——智能体需要在稀疏反馈下做出一系列搜索和回答的决策,这与RL的核心思想高度契合。 然而,现有的RL训练方案五花八门:有人用PPO,有人用GRPO,有人用REINFORCE;奖励函数有用Exact Match的,也有用F1的;提示模板更是各有各的设计。到底哪些配置真正在起作用? 这个问题一直没有系统性的回答。 本文要解读的这篇论文,正是第一个对Deep Research中RL训练进行全面、系统性研究的工作。研究团队沿着三个解耦的维度——提示模板、奖励函数、策略优化——逐一拆解,最终提出了一个更强的基线方法Search-R1++。 核心框架:三个维度,一个统一视角 论文以Search-R1作为基础框架,严格复现其架构、数据集和检索器,在此受控环境下系统地研究RL训练的三个关键组件: 提示模板(Prompt Template):指导智能体如何组织推理和搜索行为 奖励函数(Reward Function):定义什么样的输出是"好的" 策略优化(Policy Optimization):选择哪种RL算法来更新策略 评估则围绕三个核心指标展开:预测准确率、训练稳定性、推理成本。 实验使用Qwen2.5-3B和Qwen2.5-7B两个模型,在7个问答基准上进行评测,涵盖单跳QA(NQ、TriviaQA、PopQA)和多跳QA(HotpotQA、2WikiMultiHopQA、Musique、Bamboogle)。 发现一:想得越多,反而做得越差 这是论文中最反直觉的发现之一。 在数学推理、代码生成等"System-2"任务中,我们通常认为链式思维(Chain-of-Thought)越长越好——多想一步,答案就更准一些。但在Deep Research场景下,情况恰恰相反。 研究团队对Search-R1生成的轨迹做了统计分析,发现: 显式推理token越多,准确率越低 检索到的信息token越多,准确率也越低 这意味着,在"搜索-阅读-回答"这种交互式任务中,冗长的推理不仅没有帮助,反而成了负担。 快思考 vs 慢思考 基于这一观察,论文设计了两种提示模板进行对比: 慢思考模板(Slow Thinking):要求模型每次获取新信息后,先在<think>...</think>标签内进行显式推理,然后再决定搜索或回答。这是Search-R1等现有系统普遍采用的方式。 快思考模板(Fast Thinking):直接让模型输出搜索查询或最终答案,不强制要求中间推理步骤。 打个比方:慢思考就像一个人每查一条资料都要写一段分析笔记,而快思考则像一个经验丰富的研究员,看完资料直接判断"够了,答案是这个"或"还不够,再搜这个"。 实验结果非常明确: 模型 慢思考(Search-R1) 快思考(本文) Qwen2.5-7B 0.403 0.422 Qwen2.5-3B 0.289 0.297 慢思考为什么会崩溃? 更关键的是,慢思考模板在训练过程中容易出现训练崩溃。 论文通过详细的训练动态分析揭示了崩溃的机制: 训练中期,模型开始在单次决策前生成大量空的或无意义的<think></think>标签 <think>标签数量激增与性能骤降高度同步 Pearson相关分析显示,崩溃阶段<think>标签数量与奖励之间存在正相关(0.4310),而稳定训练时几乎无相关(-0.0465) 这说明了什么?在PPO的稀疏奖励结构下,模型发现了一条"捷径":堆叠<think>标签似乎与更高的回报相关联。
阅读全文