大模型火爆，可观测性变革是否将被重新定义？

摘要：过去 3 个月里，我密集看了一圈厂商发布、标准进展和云厂商文档，结论很明确：AI 不会削弱可观测性，

过去 3 个月里，我密集看了一圈厂商发布、标准进展和云厂商文档，结论很明确：AI 不会削弱可观测性，反而会把可观测性从“辅助排障工具”抬升成 AI 时代的运行时控制平面。这件事的底层逻辑并不复杂。传统软件再复杂，本质上还是确定性系统；而 agent、LLM、工具调用、多步推理、动态编排，把系统变成了一个更高变化率、更高不确定性、也更高成本敏感的运行环境。系统越不确定，就越需要可观测性。不是更少，而是更多。下面这篇文章，先总结最近 3 个月我看到的核心观点，再给出我自己的判断：可观测性领域会怎么演进，厂商该怎么转，甲方该怎么做。过去 3 个月，行业共识收敛到 5 件事 1. AI 从 PoC 走向生产，真正卡住它的不是模型能力，而是可靠性、治理和可审计性今年 1 月，Dynatrace 发布的《The Pulse of Agentic AI 2026》非常典型。它把“可靠性、韧性、治理、实时可见性”直接定义成企业级 agentic AI 落地的前置条件。报告里最值得注意的不是“大家都想上 AI”，而是“大家已经愿意花钱，但不敢失控地上 AI”。这意味着什么？意味着 AI 在企业里已经不再是一个“创新项目”，而开始变成一个“生产系统”。一旦进入生产系统，问题就不再是 demo 能不能跑，而是：出错时能不能定位漂移时能不能发现超预算时能不能及时刹车做错决策时能不能追责和回放所以，AI 越火，企业越不会减少对可观测性的投入。恰恰相反，可观测性正在变成 AI 上生产的准入门槛。 2. 可观测对象已经从“服务和基础设施”扩展到“agent 工作流本身” 过去我们观测的是服务、容器、数据库、队列、前端和网络。现在还要额外观测： prompt 与 response agent 的 planning 和 handoff tool call 的参数、结果和失败原因 retrieval 质量 token 消耗、缓存命中和成本变化评估结果安全与合规事件这不是在原有 APM 上多加几个字段那么简单，而是观测对象发生了代际变化。最近的信号很密集。Dynatrace 在 1 月底把 AI Observability 单独做成产品体验，强调对 agents、frameworks、tools、MCP、OpenAI Agents SDK、Google ADK 等的端到端追踪。OpenTelemetry 在 2 月 19 日发布的 semantic-conventions v1.40.0 里继续加深 GenAI 语义，包括 retrieval span、服务端 tool calls、gen_ai.agent.version、缓存 token 属性等。Google Cloud 在 3 月更新的文档里，已经把 ADK 的 OpenTelemetry 内建埋点、prompt/response 采集、质量分数和 PII 风险控制当成标准做法。这几个动作放在一起看，意思很明确：行业已经默认“agent 本身就是新的可观测对象”。 3. 可观测性产品正在从“给人看的 dashboard”变成“给人和 agent 一起用的证据系统” 这是最近 3 个月最重要的变化之一。 Honeycomb 在 3 月的一篇文章里说得很直接：AI agent 并不看 dashboard，它会连续发起查询、形成假设、验证假设，因此它真正依赖的是数据模型、查询速度、完整性和成本。这个判断我非常认同。因为 agent 不是一个“更聪明的用户”，它更像是一个持续读取系统证据、再决定下一步动作的运行时消费者。 Datadog 3 月更新 Bits AI SRE 时，重点已经不只是“帮你解释告警”，而是：让 agent 做多步调查展示 agent trace 和推理路径直接发起 triage 接入自动化修复流程 New Relic 在 2 月也很激进，一边推 SRE Agent，一边推 Agentic Platform，明确提出要把可观测性从被动观察推进到主动执行。这背后说明的不是“大家都在给产品加 Copilot”，而是另一件更本质的事：可观测性平台正在演化成 agent 的事实底座、上下文引擎和动作入口。 4. 开放标准的重要性在快速上升，OpenTelemetry 正在成为默认汇聚层 AI 时代的可观测性如果还是封闭格式、封闭采集、封闭工作流，最终一定会被边缘化。原因很简单：企业的 AI 栈天然是混合的。模型是多家的，框架是多套的，云是多朵的，工具链更是碎片化的。如果没有一个相对中立的语义层和采集层，最后不是数据割裂，就是厂商锁死。

大模型火爆，可观测性变革是否将被重新定义？

相关推荐