Gaia2与ARE：如何评测赋能社区的智能体？

摘要：在理想情况下，AI 智能体应当是可靠的助手。当接收到任务时，它们能够轻松处理指令中的歧义，构建逐步执行的计划，正确识别所需资源，按计划执行而不被干扰，并在突发事件中灵活适应，同时保持准确性，避免幻觉。然而，开发智能体并测试这些行为并非易事

在理想情况下，AI 智能体应当是可靠的助手。当接收到任务时，它们能够轻松处理指令中的歧义，构建逐步执行的计划，正确识别所需资源，按计划执行而不被干扰，并在突发事件中灵活适应，同时保持准确性，避免幻觉。然而，开发智能体并测试这些行为并非易事：如果你曾尝试过调试自己的智能体，可能会体会到其中的繁琐和挫败感。现有的评测环境通常与特定任务紧密耦合，缺乏真实世界的灵活性，也无法反映开放世界中混乱的现实：模拟页面不会加载失败，事件不会自发发生，也不存在异步混乱。因此，我们很高兴地介绍 Gaia2 ——智能体基准 GAIA 的后续版本，它能够分析更复杂的行为。Gaia2 与开放的 Meta Agents Research Environments (ARE) 框架一同发布，用于运行、调试和评测智能体。ARE 可以模拟复杂、接近真实世界的条件，并支持定制化，以便进一步研究智能体行为。Gaia2 数据集以 CC BY 4.0 许可证发布，ARE 框架则以 MIT 许可证开源。图 1：Gaia2 的预算扩展曲线（Budget Scaling Curves）。随着预算增加，智能体在任务上的表现逐渐提升，用于展示在复杂环境中智能体能力随资源投入的变化趋势。 Gaia2：真实场景助理任务上的智能体评测 GAIA 是 2023 年发布的一个智能体基准测试，包含三类信息检索问题，需要工具调用、网页浏览和推理能力才能完成。两年过去，如今最简单的题目对模型来说已经过于容易，而社区也逐渐接近攻克最难的部分问题，因此，是时候推出一个全新且更具挑战性的智能体基准了！这就是 Gaia2 —— GAIA 的全新升级版本，在能力覆盖与研究深度上都有大幅拓展！相比于只读的 GAIA，Gaia2 升级为可读写的评测基准，更加关注交互行为与复杂性管理。在 Gaia2 中，智能体不仅要完成搜索与检索任务，还需要在充满不确定性和时间敏感性的指令下执行操作，并在包含可控故障的嘈杂环境中运行——这一设定比以往任何模拟环境都更接近真实世界。我们希望测试智能体在以下场景下的表现：当工具或 API 偶尔失效时如何应对；如何在严格的时间窗口中规划一系列动作；如何快速适应突发事件。这意味着智能体将面临全新的复杂性挑战！为此，我们设计了以下任务组（基于全新创作的 1000 个人工场景）：执行能力（Execution）：多步骤指令执行与工具使用（如更新联系人信息）搜索能力（Search）：跨来源信息收集（如从 WhatsApp 获取朋友所在城市）歧义处理（Ambiguity Handling）：澄清冲突请求（如解决日程冲突）适应性（Adaptability）：应对模拟环境中的变化（如根据后续信息修改邮件）时间/时序推理（Time/Temporal Reasoning）：处理时间敏感任务（如延迟 3 分钟后再叫车）智能体间协作（Agent-to-Agent Collaboration）：在无直接 API 访问的情况下进行智能体间通信噪声容忍度（Noise Tolerance）：在 API 故障和环境不稳定条件下保持稳健延续 GAIA 的设计理念，这些场景不依赖专业知识理论上人类可以轻松达到 100% 完成度，从而方便模型开发者进行调试和改进。想要深入体验这个基准吗？欢迎查看我们的数据集，你也可以通过我们的在线演示更直观地探索与展示。 Gaia2 如何运行？ Gaia2 运行在 ARE（Agent Research Environments）执行环境中，在这里，用户可以选择任意智能体，并赋予其对一系列应用程序及预置数据的访问能力。针对 Gaia2，我们打造了一个智能手机模拟环境，再现人类日常生活中的使用场景。环境中包含真实世界常见的应用，如消息类（电子邮件）、工具类（日历、联系人、购物、文件系统等），以及一个与智能体对话的聊天界面。所有应用也都可以通过工具调用的方式被智能体访问。更有趣的是，演示环境还附带了一个虚拟用户的历史对话与应用交互记录。在运行过程中，所有智能体的交互都会被自动记录为结构化轨迹（structured traces），以便深入分析。这些轨迹包括：工具调用、API 响应、模型思考过程、时间指标（如响应延迟）、用户交互等，并可导出为 JSON 文件。结果展示作为参考，我们对比了多款开源与闭源的大模型，包括：Llama 3.3-70B Instruct、Llama-4-Maverick、GPT-4o、Qwen3-235B-MoE、Grok-4、Kimi K2、Gemini 2.5 Pro、Claude 4 Sonnet，以及 GPT-5 在不同推理模式下的表现。

Gaia2与ARE：如何评测赋能社区的智能体？

相关推荐