智能体架构选型与工具预算，如何实现经济学优化？

摘要：随着模型能力的提升，工业界开始反思：盲目增加智能体、盲目增加工具调用次数真的能“大力出奇迹”吗？本文串联了两篇Google论文，从宏观的架构选择到微观的工具预算感知，探讨如何科学地构建高效的Agent系统。

导读：2025年是智能体爆发的一年。然而，随着模型能力的提升，工业界开始反思：盲目增加智能体、盲目增加工具调用次数真的能“大力出奇迹”吗？本文串联了两篇Google论文，从宏观的架构选择到微观的工具预算感知，探讨如何科学地构建高效的Agent系统。 Part 1. 宏观选型：多智能体的科学定律 Towards a Science of Scaling Agent Systems 最近在很多分享交流上对于究竟使用单智能体vs多智能体有很多不同的声音。24年其实以多智能体架构为主，但是随着模型能力的提升，不少论文发现，多智能体带来的边际收益在递减，同时多智能体之间的沟通成本和信息碎片化，导致在部分任务上甚至不如单智能体的效果。而Google这篇论文没有停留在理论争辩，而是通过严谨的控制变量实验，揭示了架构选择与任务特征之间的深层数学关系。论文试图回答：影响智能体系统表现的决定性变量是什么？智能体间的“沟通”何时是蜜糖，何时是砒霜？是否存在一个通用的“最优架构”？实验设计：解耦与控制为了得出上述结论，作者设计了一个非常严谨的控制变量实验。以下是其具体的实验步骤：步骤一：明确的Agentic任务范围论文明确剔除了所有非智能体任务，毕竟多智能体隐式带来的Ensenble等推理效果很容易在HumanEval等任务上带来提升。这里智能体任务包含三个特点多步和环境交互基于部分观测的反复信息收集基于反馈的策略优化缺少以上条件的任务，其实都是在测试模型自身的推理能力，而非智能体在动态非确定环境性下工具调用和多步动态规划能力。基于以上条件论文选择了下面四个测试实验 Finance-Agent: 高可分解性，需多视角数据聚合。 BrowseComp-Plus: 动态网页浏览，具有高熵搜索空间。 PlanCraft: 基于《我的世界》GUI界面的合成数据集，包含时空数据的规划任务，具有严格的序列依赖性。 Workbench: 评估业务流程自动化，涉及确定的代码执行和工具使用，例如发邮件、安排会议。步骤二：梳理智能体架构分类为了解耦“多智能体”这个概念，作者将其拆解为 5 种标准架构进行对比： SAS：单智能体架构 MAS：多智能体架构，论文按照信息流动方式和结构分成以下几类 Independent：所有智能体之间没有沟通，各干各个的，等同于Ensemble模型 Centralized：中心化模式，Cluade称之为Orchestrator，主智能体负责规划分发任务给子智能体并汇总信息，整个信息流动中存在主导者和信息瓶颈。 DeCentralized：去中心化，所有智能体All to All通信，论文使用的是辩论模式，其实也有也有像圆桌讨论、多角色讨论等其他模式，只不过是智能体的角色和所站论点的差异。 Hybrid：兼顾中心规划和子智能体的横向沟通的混合模式更具体的不同智能体架构的交互深度、沟通复杂度如下步骤三：变量控制所有架构使用完全相同的工具、指令和任务描述，和相同的总推理Token预算。所以会存在MAS下子智能体越多，那每个子智能体分配到的轮次就更少。实验结论和分析如上图是不同智能体结构在不同任务上的实验效果，实验结果并未给出一个“万能架构”，反而揭示了信息流结构（Information Flow Structure）才是决定架构优劣的根本。多智能体收益高度依赖任务结构，不存在永远最优的智能体架构正收益：在可分解、并行的任务上，例如需要多角度信息收集的Finance Agent任务上，MAS 表现出色，中心化架构（Centralized）比单体（SAS）提升了 80.9% 。微收益：在动态搜索任务（BrowseComp-Plus）上，去中心化架构仅带来 9.2% 的提升。负收益：在强序列依赖的规划任务（PlanCraft）上，所有 MAS 架构都导致性能下降，降幅在 39% 到 70% 之间。为什么多智能体在序列任务重失效？作为算法工程师，我们需要透过现象看本质：这是Context Fragmentation（上下文碎片化）带来的必然结果。高可分解性任务：类比Finance Agent，以及单段落的大纲写作等任务这类任务的信息流特征是正交且独立，所以 \(P(task2|task1)\sim P(task2)\)，也意味着子智能体之前几乎无需沟通交流或者状态同步，因此中心化结构能带来并发效率提升，以及覆盖更广的搜索空间。

智能体架构选型与工具预算，如何实现经济学优化？

相关推荐