大模型火爆,可观测性变革是否将被重新定义?

摘要:过去 3 个月里,我密集看了一圈厂商发布、标准进展和云厂商文档,结论很明确:AI 不会削弱可观测性,
过去 3 个月里,我密集看了一圈厂商发布、标准进展和云厂商文档,结论很明确:AI 不会削弱可观测性,反而会把可观测性从“辅助排障工具”抬升成 AI 时代的运行时控制平面。 这件事的底层逻辑并不复杂。传统软件再复杂,本质上还是确定性系统;而 agent、LLM、工具调用、多步推理、动态编排,把系统变成了一个更高变化率、更高不确定性、也更高成本敏感的运行环境。系统越不确定,就越需要可观测性。不是更少,而是更多。 下面这篇文章,先总结最近 3 个月我看到的核心观点,再给出我自己的判断:可观测性领域会怎么演进,厂商该怎么转,甲方该怎么做。 过去 3 个月,行业共识收敛到 5 件事 1. AI 从 PoC 走向生产,真正卡住它的不是模型能力,而是可靠性、治理和可审计性 今年 1 月,Dynatrace 发布的《The Pulse of Agentic AI 2026》非常典型。它把“可靠性、韧性、治理、实时可见性”直接定义成企业级 agentic AI 落地的前置条件。报告里最值得注意的不是“大家都想上 AI”,而是“大家已经愿意花钱,但不敢失控地上 AI”。 这意味着什么? 意味着 AI 在企业里已经不再是一个“创新项目”,而开始变成一个“生产系统”。一旦进入生产系统,问题就不再是 demo 能不能跑,而是: 出错时能不能定位 漂移时能不能发现 超预算时能不能及时刹车 做错决策时能不能追责和回放 所以,AI 越火,企业越不会减少对可观测性的投入。恰恰相反,可观测性正在变成 AI 上生产的准入门槛。 2. 可观测对象已经从“服务和基础设施”扩展到“agent 工作流本身” 过去我们观测的是服务、容器、数据库、队列、前端和网络。现在还要额外观测: prompt 与 response agent 的 planning 和 handoff tool call 的参数、结果和失败原因 retrieval 质量 token 消耗、缓存命中和成本变化 评估结果 安全与合规事件 这不是在原有 APM 上多加几个字段那么简单,而是观测对象发生了代际变化。 最近的信号很密集。Dynatrace 在 1 月底把 AI Observability 单独做成产品体验,强调对 agents、frameworks、tools、MCP、OpenAI Agents SDK、Google ADK 等的端到端追踪。OpenTelemetry 在 2 月 19 日发布的 semantic-conventions v1.40.0 里继续加深 GenAI 语义,包括 retrieval span、服务端 tool calls、gen_ai.agent.version、缓存 token 属性等。Google Cloud 在 3 月更新的文档里,已经把 ADK 的 OpenTelemetry 内建埋点、prompt/response 采集、质量分数和 PII 风险控制当成标准做法。 这几个动作放在一起看,意思很明确:行业已经默认“agent 本身就是新的可观测对象”。 3. 可观测性产品正在从“给人看的 dashboard”变成“给人和 agent 一起用的证据系统” 这是最近 3 个月最重要的变化之一。 Honeycomb 在 3 月的一篇文章里说得很直接:AI agent 并不看 dashboard,它会连续发起查询、形成假设、验证假设,因此它真正依赖的是数据模型、查询速度、完整性和成本。这个判断我非常认同。因为 agent 不是一个“更聪明的用户”,它更像是一个持续读取系统证据、再决定下一步动作的运行时消费者。 Datadog 3 月更新 Bits AI SRE 时,重点已经不只是“帮你解释告警”,而是: 让 agent 做多步调查 展示 agent trace 和推理路径 直接发起 triage 接入自动化修复流程 New Relic 在 2 月也很激进,一边推 SRE Agent,一边推 Agentic Platform,明确提出要把可观测性从被动观察推进到主动执行。 这背后说明的不是“大家都在给产品加 Copilot”,而是另一件更本质的事:可观测性平台正在演化成 agent 的事实底座、上下文引擎和动作入口。 4. 开放标准的重要性在快速上升,OpenTelemetry 正在成为默认汇聚层 AI 时代的可观测性如果还是封闭格式、封闭采集、封闭工作流,最终一定会被边缘化。 原因很简单:企业的 AI 栈天然是混合的。模型是多家的,框架是多套的,云是多朵的,工具链更是碎片化的。如果没有一个相对中立的语义层和采集层,最后不是数据割裂,就是厂商锁死。
阅读全文