如何优化N9e-告警规则的分级管理策略?
摘要:# N9e-告警规则分级管理与优化建议 | 项目 | 值 | | | | | 数据来源 | N9E API `GET apin9ebusi-group{id}alert-rules` | | N9E 地址 | https:n9
# N9e-告警规则分级管理与优化建议
| 项目 | 值 |
|------|----|
| 数据来源 | N9E API `GET /api/n9e/busi-group/{id}/alert-rules` |
| N9E 地址 | https://n9e.icbc.com |
| 总规则数 | **222** (启用 197 / 禁用 25) |
| 业务组数 | 17 |
## 目录
- [汇总统计](#汇总统计)
- [P0-Critical (116 条)](#p0-critical-116-条)
- [P1-Warning (86 条)](#p1-warning-86-条)
- [P2-Info (20 条)](#p2-info-20-条)
- [覆盖缺口分析](#覆盖缺口分析)
---
## 汇总统计
### 按级别统计
| 级别 | 启用 | 禁用 | 合计 | 占比 |
|------|------|------|------|------|
| **P0-Critical** | 106 | 10 | 116 | 52% |
| **P1-Warning** | 73 | 13 | 86 | 39% |
| **P2-Info** | 18 | 2 | 20 | 9% |
| **合计** | **197** | **25** | **222** | 100% |
### 按业务组统计
| 业务组 | P0 | P1 | P2 | 合计 | 启用 | 禁用 |
|--------|----|----|----|----|------|------|
| **AM** | 4 | 0 | 0 | 4 | 3 | 1 |
| **DMA** | 1 | 0 | 0 | 1 | 0 | 1 |
| **DataCenter** | 5 | 0 | 0 | 5 | 5 | 0 |
| **Infra/AccessLog** | 1 | 1 | 0 | 2 | 2 | 0 |
| **Infra/DevOps** | 4 | 2 | 0 | 6 | 6 | 0 |
| **Infra/EC2** | 14 | 20 | 9 | 43 | 35 | 8 |
| **Infra/K8S** | 13 | 16 | 6 | 35 | 34 | 1 |
| **Infra/Kafka** | 5 | 11 | 0 | 16 | 16 | 0 |
| **Infra/Monitoring** | 14 | 14 | 0 | 28 | 20 | 8 |
| **Infra/RDS** | 7 | 8 | 1 | 16 | 16 | 0 |
| **Infra/Redis** | 5 | 7 | 1 | 13 | 13 | 0 |
| **OTC** | 2 | 0 | 0 | 2 | 2 | 0 |
| **Prime/Custody** | 0 | 1 | 0 | 1 | 1 | 0 |
| **Prime/EMS/mds** | 6 | 2 | 3 | 11 | 8 | 3 |
| **Prime/EMS/rapidtrade** | 12 | 0 | 0 | 12 | 11 | 1 |
| **Prime/OMS** | 21 | 4 | 0 | 25 | 23 | 2 |
| **Security** | 2 | 0 | 0 | 2 | 2 | 0 |
### 按监控类型统计
| 监控类型 | 数量 |
|---------|------|
| AWS CloudWatch 指标 | 49 |
| 主机指标 (node_exporter) | 48 |
| 应用自定义指标 | 40 |
| 探活/连通性检测 | 27 |
| K8s/容器指标 | 25 |
| 日志告警 (Loki LogQL) | 23 |
| Kafka 指标 (JMX) | 5 |
| 数据库指标 | 3 |
| 其他/无 PromQL | 2 |
---
## P0-Critical (116 条)
### AM (4 条, 启用 3)
#### 1. Logs-AM ALERTERROR
- **级别**: P0-Critical | **状态**: Disabled | **ID**: 160
- **配置**: 执行间隔: 15s | 类型: loki
- **备注**: AM相关服务日志告警,关键字ALERTERROR
**PromQL**:
```promql
sum by (app, truncated_message) ( count_over_time( {app=~"(ltp-am|ltp-a
