如何构建SRE应用稳定性看板,实现应用健康业务系统评分体系?

摘要:# SRE 应用稳定性看板 > 从应用维度监控服务健康状态,基于 Apdex 评分体系 ## 一、应用监控维度 ### 1.1 系统层:资源使用率 #### EC2 指标 | 指标 | 说明 | | | | | CPU
# SRE 应用稳定性看板 > 从应用维度监控服务健康状态,基于 Apdex 评分体系 --- ## 一、应用监控维度 ### 1.1 系统层:资源使用率 #### EC2 指标 | 指标 | 说明 | |------|------| | CPU 利用率 | 处理器使用百分比 | | MEM 利用率 | 内存使用百分比 | | 磁盘利用率 | 存储使用百分比 | | IO 利用率 | 磁盘 IO 使用率 | | TCP 连接利用率 | 网络连接数 | | OOM 次数 | 内存溢出次数 | #### K8S 指标 | 指标 | 说明 | |------|------| | POD CPU 利用率 | 容器 CPU 使用率 | | POD MEM 利用率 | 容器内存使用率 | | POD PVC 利用率 | 持久卷使用率 | | POD 异常重启次数 | 容器重启计数 | ### 1.2 应用服务层 #### JVM 指标 | 指标 | 说明 | |------|------| | JVM CPU 利用率 | Java 进程 CPU | | JVM 内存利用率 | 堆内存使用率 | | JVM GC Count | GC 次数 | | JVM GC Time | GC 耗时 | | JVM Thread Count | 线程数 | #### 进程状态 | 指标 | 说明 | |------|------| | 进程存活状态 | 进程是否运行 | ### 1.3 应用运行层 #### 吞吐量 | 指标 | 说明 | |------|------| | QPS/TPS | 每秒请求/事务数 | #### 时延 | 指标 | 说明 | |------|------| | 接口平均响应时间 | 平均延迟 | | P99/P95/P90 响应延时 | 分位数延迟 | #### Error | 指标 | 说明 | |------|------| | 接口请求成功率 | 成功请求占比 | | 5XX 次数 | 服务端错误数 | --- ## 二、服务评分:Service Apdex ### 2.1 概述 **Service Apdex**(综合计算指标)用于衡量服务整体健康状态。
阅读全文