如何用AI从零开始搭建裁员后接手的运维可观测性平台？

摘要：三个月前，我还是一个纯后端开发。公司给所有人配了Cursor，开发效率提升了，然后开始裁员。部门重组之后，我和我的leader被划进了一个新的盘子：数仓 + 运维。两个板块，都不是我的主业。 leader看着新的组织

三个月前，我还是一个纯后端开发。公司给所有人配了Cursor，开发效率提升了，然后开始裁员。部门重组之后，我和我的leader被划进了一个新的盘子：数仓 + 运维。两个板块，都不是我的主业。 leader看着新的组织架构图，问我： "可观测性平台这块，你来负责？" 我当时脑子里只有一个念头：我连Prometheus和Grafana有什么区别都说不清楚。但我说了"好"。因为没有别的选择。一、第一天：我到底不知道什么接下来的事，比想象中要快。原因只有一个：AI。但在说AI怎么帮我的之前，我想先说第一天我做的一件事—— 把自己不知道的东西，全部列出来。可观测性平台，这个词我听过，但说不清楚。于是我直接问Claude：我是一个Java后端开发，没有运维背景。公司让我从0搭建可观测性平台。请告诉我： 1. 可观测性平台到底是什么，解决什么问题 2. 行业里主流的方案有哪些 3. 一个非运维背景的人，应该按什么顺序学习这个领域 AI给了我一个我能看懂的解释：可观测性平台的核心是三件事： Metrics（指标）：系统现在健不健康？CPU、内存、QPS Logs（日志）：系统发生了什么？错误日志、请求日志 Traces（链路追踪）：一个请求经过了哪些服务，慢在哪里？把这三件事做好，出了问题你才能快速定位。三个词，我记住了。然后AI给了我一张"知识地图"，告诉我行业里的主流方案：Prometheus + Grafana（指标）、ELK（日志）、SkyWalking / Jaeger（链路）、以及云厂商的一站式方案（阿里云云监控、腾讯云 CLS 等）。第一天结束，我从"完全不知道"变成了"知道自己需要搞清楚什么"。这是AI在这个阶段最大的价值：帮我把一个陌生领域快速结构化。二、调研阶段：用AI读懂我读不懂的东西接下来一周，是密集的调研期。我们初步圈定了三个方向：阿里云云监控 2.0：托管方案，接入成本低 ELK（Elasticsearch + Logstash + Kibana）：日志方向成熟方案，开源自建 SkyWalking：链路追踪主流选择，开源自建每个方案，我都要搞清楚：能做什么、不能做什么、适合什么规模、成本怎么算。这些东西，官方文档几十页，英文夹中文，充斥着我不熟悉的术语。我的做法是：把文档喂给AI，让它帮我翻译成"Java后端能理解的语言"。举个具体例子。 SkyWalking的官方文档里有一段关于存储后端选型的说明，涉及到H2、MySQL、ElasticSearch、TiDB几种存储，每种都有适用场景。我直接把这段贴给Claude：我是Java后端，没有运维背景。以下是SkyWalking存储选型的官方说明，请帮我： 1. 用大白话解释每种存储的适用场景 2. 我们公司日活5万，数据量不大，你推荐哪种？为什么？ 3. 有什么坑是文档没写但实际部署会遇到的？ AI的回答让我避开了一个真实的坑： H2是内存存储，重启数据全没，只适合本地开发测试，生产环境绝对不能用。你们日活5万，数据量不大，MySQL完全够用，而且你们团队肯定有MySQL运维经验，不要为了"上ElasticSearch"而上，增加不必要的复杂度。如果我自己读文档，大概率不会注意到H2的这个限制，或者觉得"存储选型是后面的事"先跳过了。 AI帮我把"文档里没写清楚的坑"提前挖出来了。

如何用AI从零开始搭建裁员后接手的运维可观测性平台？

相关推荐