如何用AI从零开始搭建裁员后接手的运维可观测性平台?
摘要:三个月前,我还是一个纯后端开发。 公司给所有人配了Cursor,开发效率提升了,然后开始裁员。 部门重组之后,我和我的leader被划进了一个新的盘子:数仓 + 运维。 两个板块,都不是我的主业。 leader看着新的组织
三个月前,我还是一个纯后端开发。
公司给所有人配了Cursor,开发效率提升了,然后开始裁员。
部门重组之后,我和我的leader被划进了一个新的盘子:数仓 + 运维。
两个板块,都不是我的主业。
leader看着新的组织架构图,问我:
"可观测性平台这块,你来负责?"
我当时脑子里只有一个念头:
我连Prometheus和Grafana有什么区别都说不清楚。
但我说了"好"。
因为没有别的选择。
一、第一天:我到底不知道什么
接下来的事,比想象中要快。
原因只有一个:AI。
但在说AI怎么帮我的之前,我想先说第一天我做的一件事——
把自己不知道的东西,全部列出来。
可观测性平台,这个词我听过,但说不清楚。于是我直接问Claude:
我是一个Java后端开发,没有运维背景。
公司让我从0搭建可观测性平台。
请告诉我:
1. 可观测性平台到底是什么,解决什么问题
2. 行业里主流的方案有哪些
3. 一个非运维背景的人,应该按什么顺序学习这个领域
AI给了我一个我能看懂的解释:
可观测性平台的核心是三件事:
Metrics(指标):系统现在健不健康?CPU、内存、QPS
Logs(日志):系统发生了什么?错误日志、请求日志
Traces(链路追踪):一个请求经过了哪些服务,慢在哪里?
把这三件事做好,出了问题你才能快速定位。
三个词,我记住了。
然后AI给了我一张"知识地图",告诉我行业里的主流方案:Prometheus + Grafana(指标)、ELK(日志)、SkyWalking / Jaeger(链路)、以及云厂商的一站式方案(阿里云云监控、腾讯云 CLS 等)。
第一天结束,我从"完全不知道"变成了"知道自己需要搞清楚什么"。
这是AI在这个阶段最大的价值:帮我把一个陌生领域快速结构化。
二、调研阶段:用AI读懂我读不懂的东西
接下来一周,是密集的调研期。
我们初步圈定了三个方向:
阿里云云监控 2.0:托管方案,接入成本低
ELK(Elasticsearch + Logstash + Kibana):日志方向成熟方案,开源自建
SkyWalking:链路追踪主流选择,开源自建
每个方案,我都要搞清楚:能做什么、不能做什么、适合什么规模、成本怎么算。
这些东西,官方文档几十页,英文夹中文,充斥着我不熟悉的术语。
我的做法是:把文档喂给AI,让它帮我翻译成"Java后端能理解的语言"。
举个具体例子。
SkyWalking的官方文档里有一段关于存储后端选型的说明,涉及到H2、MySQL、ElasticSearch、TiDB几种存储,每种都有适用场景。
我直接把这段贴给Claude:
我是Java后端,没有运维背景。
以下是SkyWalking存储选型的官方说明,请帮我:
1. 用大白话解释每种存储的适用场景
2. 我们公司日活5万,数据量不大,你推荐哪种?为什么?
3. 有什么坑是文档没写但实际部署会遇到的?
AI的回答让我避开了一个真实的坑:
H2是内存存储,重启数据全没,只适合本地开发测试,生产环境绝对不能用。 你们日活5万,数据量不大,MySQL完全够用,而且你们团队肯定有MySQL运维经验, 不要为了"上ElasticSearch"而上,增加不必要的复杂度。
如果我自己读文档,大概率不会注意到H2的这个限制,或者觉得"存储选型是后面的事"先跳过了。
AI帮我把"文档里没写清楚的坑"提前挖出来了。
