大模型火爆,可观测性变革是否将被重新定义?
摘要:过去 3 个月里,我密集看了一圈厂商发布、标准进展和云厂商文档,结论很明确:AI 不会削弱可观测性,
过去 3 个月里,我密集看了一圈厂商发布、标准进展和云厂商文档,结论很明确:AI 不会削弱可观测性,反而会把可观测性从“辅助排障工具”抬升成 AI 时代的运行时控制平面。
这件事的底层逻辑并不复杂。传统软件再复杂,本质上还是确定性系统;而 agent、LLM、工具调用、多步推理、动态编排,把系统变成了一个更高变化率、更高不确定性、也更高成本敏感的运行环境。系统越不确定,就越需要可观测性。不是更少,而是更多。
下面这篇文章,先总结最近 3 个月我看到的核心观点,再给出我自己的判断:可观测性领域会怎么演进,厂商该怎么转,甲方该怎么做。
过去 3 个月,行业共识收敛到 5 件事
1. AI 从 PoC 走向生产,真正卡住它的不是模型能力,而是可靠性、治理和可审计性
今年 1 月,Dynatrace 发布的《The Pulse of Agentic AI 2026》非常典型。它把“可靠性、韧性、治理、实时可见性”直接定义成企业级 agentic AI 落地的前置条件。报告里最值得注意的不是“大家都想上 AI”,而是“大家已经愿意花钱,但不敢失控地上 AI”。
这意味着什么?
意味着 AI 在企业里已经不再是一个“创新项目”,而开始变成一个“生产系统”。一旦进入生产系统,问题就不再是 demo 能不能跑,而是:
出错时能不能定位
漂移时能不能发现
超预算时能不能及时刹车
做错决策时能不能追责和回放
所以,AI 越火,企业越不会减少对可观测性的投入。恰恰相反,可观测性正在变成 AI 上生产的准入门槛。
2. 可观测对象已经从“服务和基础设施”扩展到“agent 工作流本身”
过去我们观测的是服务、容器、数据库、队列、前端和网络。现在还要额外观测:
prompt 与 response
agent 的 planning 和 handoff
tool call 的参数、结果和失败原因
retrieval 质量
token 消耗、缓存命中和成本变化
评估结果
安全与合规事件
这不是在原有 APM 上多加几个字段那么简单,而是观测对象发生了代际变化。
最近的信号很密集。Dynatrace 在 1 月底把 AI Observability 单独做成产品体验,强调对 agents、frameworks、tools、MCP、OpenAI Agents SDK、Google ADK 等的端到端追踪。OpenTelemetry 在 2 月 19 日发布的 semantic-conventions v1.40.0 里继续加深 GenAI 语义,包括 retrieval span、服务端 tool calls、gen_ai.agent.version、缓存 token 属性等。Google Cloud 在 3 月更新的文档里,已经把 ADK 的 OpenTelemetry 内建埋点、prompt/response 采集、质量分数和 PII 风险控制当成标准做法。
这几个动作放在一起看,意思很明确:行业已经默认“agent 本身就是新的可观测对象”。
3. 可观测性产品正在从“给人看的 dashboard”变成“给人和 agent 一起用的证据系统”
这是最近 3 个月最重要的变化之一。
Honeycomb 在 3 月的一篇文章里说得很直接:AI agent 并不看 dashboard,它会连续发起查询、形成假设、验证假设,因此它真正依赖的是数据模型、查询速度、完整性和成本。这个判断我非常认同。因为 agent 不是一个“更聪明的用户”,它更像是一个持续读取系统证据、再决定下一步动作的运行时消费者。
Datadog 3 月更新 Bits AI SRE 时,重点已经不只是“帮你解释告警”,而是:
让 agent 做多步调查
展示 agent trace 和推理路径
直接发起 triage
接入自动化修复流程
New Relic 在 2 月也很激进,一边推 SRE Agent,一边推 Agentic Platform,明确提出要把可观测性从被动观察推进到主动执行。
这背后说明的不是“大家都在给产品加 Copilot”,而是另一件更本质的事:可观测性平台正在演化成 agent 的事实底座、上下文引擎和动作入口。
4. 开放标准的重要性在快速上升,OpenTelemetry 正在成为默认汇聚层
AI 时代的可观测性如果还是封闭格式、封闭采集、封闭工作流,最终一定会被边缘化。
原因很简单:企业的 AI 栈天然是混合的。模型是多家的,框架是多套的,云是多朵的,工具链更是碎片化的。如果没有一个相对中立的语义层和采集层,最后不是数据割裂,就是厂商锁死。
