如何构建SRE应用稳定性看板,实现应用健康业务系统评分体系?
摘要:# SRE 应用稳定性看板 > 从应用维度监控服务健康状态,基于 Apdex 评分体系 ## 一、应用监控维度 ### 1.1 系统层:资源使用率 #### EC2 指标 | 指标 | 说明 | | | | | CPU
# SRE 应用稳定性看板
> 从应用维度监控服务健康状态,基于 Apdex 评分体系
---
## 一、应用监控维度
### 1.1 系统层:资源使用率
#### EC2 指标
| 指标 | 说明 |
|------|------|
| CPU 利用率 | 处理器使用百分比 |
| MEM 利用率 | 内存使用百分比 |
| 磁盘利用率 | 存储使用百分比 |
| IO 利用率 | 磁盘 IO 使用率 |
| TCP 连接利用率 | 网络连接数 |
| OOM 次数 | 内存溢出次数 |
#### K8S 指标
| 指标 | 说明 |
|------|------|
| POD CPU 利用率 | 容器 CPU 使用率 |
| POD MEM 利用率 | 容器内存使用率 |
| POD PVC 利用率 | 持久卷使用率 |
| POD 异常重启次数 | 容器重启计数 |
### 1.2 应用服务层
#### JVM 指标
| 指标 | 说明 |
|------|------|
| JVM CPU 利用率 | Java 进程 CPU |
| JVM 内存利用率 | 堆内存使用率 |
| JVM GC Count | GC 次数 |
| JVM GC Time | GC 耗时 |
| JVM Thread Count | 线程数 |
#### 进程状态
| 指标 | 说明 |
|------|------|
| 进程存活状态 | 进程是否运行 |
### 1.3 应用运行层
#### 吞吐量
| 指标 | 说明 |
|------|------|
| QPS/TPS | 每秒请求/事务数 |
#### 时延
| 指标 | 说明 |
|------|------|
| 接口平均响应时间 | 平均延迟 |
| P99/P95/P90 响应延时 | 分位数延迟 |
#### Error
| 指标 | 说明 |
|------|------|
| 接口请求成功率 | 成功请求占比 |
| 5XX 次数 | 服务端错误数 |
---
## 二、服务评分:Service Apdex
### 2.1 概述
**Service Apdex**(综合计算指标)用于衡量服务整体健康状态。
