智能体架构选型与工具预算,如何实现经济学优化?

摘要:随着模型能力的提升,工业界开始反思:盲目增加智能体、盲目增加工具调用次数真的能“大力出奇迹”吗?本文串联了两篇Google论文,从宏观的架构选择到微观的工具预算感知,探讨如何科学地构建高效的Agent系统。
导读:2025年是智能体爆发的一年。然而,随着模型能力的提升,工业界开始反思:盲目增加智能体、盲目增加工具调用次数真的能“大力出奇迹”吗?本文串联了两篇Google论文,从宏观的架构选择到微观的工具预算感知,探讨如何科学地构建高效的Agent系统。 Part 1. 宏观选型:多智能体的科学定律 Towards a Science of Scaling Agent Systems 最近在很多分享交流上对于究竟使用单智能体vs多智能体有很多不同的声音。24年其实以多智能体架构为主,但是随着模型能力的提升,不少论文发现,多智能体带来的边际收益在递减,同时多智能体之间的沟通成本和信息碎片化,导致在部分任务上甚至不如单智能体的效果。 而Google这篇论文没有停留在理论争辩,而是通过严谨的控制变量实验,揭示了架构选择与任务特征之间的深层数学关系。论文试图回答: 影响智能体系统表现的决定性变量是什么? 智能体间的“沟通”何时是蜜糖,何时是砒霜? 是否存在一个通用的“最优架构”? 实验设计:解耦与控制 为了得出上述结论,作者设计了一个非常严谨的控制变量实验。以下是其具体的实验步骤: 步骤一:明确的Agentic任务范围 论文明确剔除了所有非智能体任务,毕竟多智能体隐式带来的Ensenble等推理效果很容易在HumanEval等任务上带来提升。这里智能体任务包含三个特点 多步和环境交互 基于部分观测的反复信息收集 基于反馈的策略优化 缺少以上条件的任务,其实都是在测试模型自身的推理能力,而非智能体在动态非确定环境性下工具调用和多步动态规划能力。基于以上条件论文选择了下面四个测试实验 Finance-Agent: 高可分解性,需多视角数据聚合。 BrowseComp-Plus: 动态网页浏览,具有高熵搜索空间 。 PlanCraft: 基于《我的世界》GUI界面的合成数据集,包含时空数据的规划任务,具有严格的序列依赖性。 Workbench: 评估业务流程自动化,涉及确定的代码执行和工具使用,例如发邮件、安排会议。 步骤二:梳理智能体架构分类 为了解耦“多智能体”这个概念,作者将其拆解为 5 种标准架构进行对比: SAS:单智能体架构 MAS:多智能体架构,论文按照信息流动方式和结构分成以下几类 Independent:所有智能体之间没有沟通,各干各个的,等同于Ensemble模型 Centralized:中心化模式,Cluade称之为Orchestrator,主智能体负责规划分发任务给子智能体并汇总信息,整个信息流动中存在主导者和信息瓶颈。 DeCentralized:去中心化,所有智能体All to All通信,论文使用的是辩论模式,其实也有也有像圆桌讨论、多角色讨论等其他模式,只不过是智能体的角色和所站论点的差异。 Hybrid:兼顾中心规划和子智能体的横向沟通的混合模式 更具体的不同智能体架构的交互深度、沟通复杂度如下 步骤三:变量控制 所有架构使用完全相同的工具、指令和任务描述,和相同的总推理Token预算。所以会存在MAS下子智能体越多,那每个子智能体分配到的轮次就更少。 实验结论和分析 如上图是不同智能体结构在不同任务上的实验效果,实验结果并未给出一个“万能架构”,反而揭示了信息流结构(Information Flow Structure)才是决定架构优劣的根本。 多智能体收益高度依赖任务结构,不存在永远最优的智能体架构 正收益: 在可分解、并行的任务上,例如需要多角度信息收集的Finance Agent任务上,MAS 表现出色,中心化架构(Centralized)比单体(SAS)提升了 80.9% 。 微收益: 在动态搜索任务(BrowseComp-Plus)上,去中心化架构仅带来 9.2% 的提升 。 负收益: 在强序列依赖的规划任务(PlanCraft)上,所有 MAS 架构都导致性能下降,降幅在 39% 到 70% 之间 。 为什么多智能体在序列任务重失效? 作为算法工程师,我们需要透过现象看本质:这是Context Fragmentation(上下文碎片化)带来的必然结果。 高可分解性任务:类比Finance Agent,以及单段落的大纲写作等任务 这类任务的信息流特征是正交且独立,所以 \(P(task2|task1)\sim P(task2)\),也意味着子智能体之前几乎无需沟通交流或者状态同步,因此中心化结构能带来并发效率提升,以及覆盖更广的搜索空间。
阅读全文