智能体架构选型与工具预算,如何实现经济学优化?
摘要:随着模型能力的提升,工业界开始反思:盲目增加智能体、盲目增加工具调用次数真的能“大力出奇迹”吗?本文串联了两篇Google论文,从宏观的架构选择到微观的工具预算感知,探讨如何科学地构建高效的Agent系统。
导读:2025年是智能体爆发的一年。然而,随着模型能力的提升,工业界开始反思:盲目增加智能体、盲目增加工具调用次数真的能“大力出奇迹”吗?本文串联了两篇Google论文,从宏观的架构选择到微观的工具预算感知,探讨如何科学地构建高效的Agent系统。
Part 1. 宏观选型:多智能体的科学定律
Towards a Science of Scaling Agent Systems
最近在很多分享交流上对于究竟使用单智能体vs多智能体有很多不同的声音。24年其实以多智能体架构为主,但是随着模型能力的提升,不少论文发现,多智能体带来的边际收益在递减,同时多智能体之间的沟通成本和信息碎片化,导致在部分任务上甚至不如单智能体的效果。
而Google这篇论文没有停留在理论争辩,而是通过严谨的控制变量实验,揭示了架构选择与任务特征之间的深层数学关系。论文试图回答:
影响智能体系统表现的决定性变量是什么?
智能体间的“沟通”何时是蜜糖,何时是砒霜?
是否存在一个通用的“最优架构”?
实验设计:解耦与控制
为了得出上述结论,作者设计了一个非常严谨的控制变量实验。以下是其具体的实验步骤:
步骤一:明确的Agentic任务范围
论文明确剔除了所有非智能体任务,毕竟多智能体隐式带来的Ensenble等推理效果很容易在HumanEval等任务上带来提升。这里智能体任务包含三个特点
多步和环境交互
基于部分观测的反复信息收集
基于反馈的策略优化
缺少以上条件的任务,其实都是在测试模型自身的推理能力,而非智能体在动态非确定环境性下工具调用和多步动态规划能力。基于以上条件论文选择了下面四个测试实验
Finance-Agent: 高可分解性,需多视角数据聚合。
BrowseComp-Plus: 动态网页浏览,具有高熵搜索空间 。
PlanCraft: 基于《我的世界》GUI界面的合成数据集,包含时空数据的规划任务,具有严格的序列依赖性。
Workbench: 评估业务流程自动化,涉及确定的代码执行和工具使用,例如发邮件、安排会议。
步骤二:梳理智能体架构分类
为了解耦“多智能体”这个概念,作者将其拆解为 5 种标准架构进行对比:
SAS:单智能体架构
MAS:多智能体架构,论文按照信息流动方式和结构分成以下几类
Independent:所有智能体之间没有沟通,各干各个的,等同于Ensemble模型
Centralized:中心化模式,Cluade称之为Orchestrator,主智能体负责规划分发任务给子智能体并汇总信息,整个信息流动中存在主导者和信息瓶颈。
DeCentralized:去中心化,所有智能体All to All通信,论文使用的是辩论模式,其实也有也有像圆桌讨论、多角色讨论等其他模式,只不过是智能体的角色和所站论点的差异。
Hybrid:兼顾中心规划和子智能体的横向沟通的混合模式
更具体的不同智能体架构的交互深度、沟通复杂度如下
步骤三:变量控制
所有架构使用完全相同的工具、指令和任务描述,和相同的总推理Token预算。所以会存在MAS下子智能体越多,那每个子智能体分配到的轮次就更少。
实验结论和分析
如上图是不同智能体结构在不同任务上的实验效果,实验结果并未给出一个“万能架构”,反而揭示了信息流结构(Information Flow Structure)才是决定架构优劣的根本。
多智能体收益高度依赖任务结构,不存在永远最优的智能体架构
正收益: 在可分解、并行的任务上,例如需要多角度信息收集的Finance Agent任务上,MAS 表现出色,中心化架构(Centralized)比单体(SAS)提升了 80.9% 。
微收益: 在动态搜索任务(BrowseComp-Plus)上,去中心化架构仅带来 9.2% 的提升 。
负收益: 在强序列依赖的规划任务(PlanCraft)上,所有 MAS 架构都导致性能下降,降幅在 39% 到 70% 之间 。
为什么多智能体在序列任务重失效?
作为算法工程师,我们需要透过现象看本质:这是Context Fragmentation(上下文碎片化)带来的必然结果。
高可分解性任务:类比Finance Agent,以及单段落的大纲写作等任务
这类任务的信息流特征是正交且独立,所以
\(P(task2|task1)\sim P(task2)\),也意味着子智能体之前几乎无需沟通交流或者状态同步,因此中心化结构能带来并发效率提升,以及覆盖更广的搜索空间。
