阿里云平台健康检查巡检清单-运维篇包含哪些内容？

摘要：阿里云平台健康检查综合巡检清单 1. 管理节点检查 *&#160;节点运行状态： * 检查管理节点（如部署了管控组件的ECS实例）是否处于&#160;Running&#160;状态。 * 通过

阿里云平台健康检查综合巡检清单 1. 管理节点检查 *节点运行状态： * 检查管理节点（如部署了管控组件的ECS实例）是否处于Running状态。 * 通过阿里云控制台、OpenAPI 或 CLI 确认状态。 * 检查系统负载（CPU、内存）是否在合理范围，无持续高负载。 *服务运行状态： * 检查关键管理服务（如管控 Agent、监控 Agent、日志服务 Agent、安全服务 Agent、调度服务等）是否正常运行 (systemctl status,ps aux)。 * 检查服务日志 (journalctl,/var/log/) 是否有错误、警告或频繁重启记录。 *磁盘使用情况： * 检查系统盘和数据盘（如有）的使用率 (df -h)。 *关键阈值：系统盘/分区建议保持在 80% 以下，避免因空间不足导致服务异常或升级失败。 * 检查inode使用情况 (df -i)。 *高可用状态： * 如果管理节点本身是多节点部署（如管控集群），检查集群状态是否健康（Active/Standby或Active/Active）。 * 检查 VIP 漂移状态（如适用）。 * 检查节点间的心跳、网络连接是否正常。 * 验证故障转移功能是否有效（模拟测试需谨慎）。 2. 云平台计算节点（宿主机）检查 *时间同步 (NTP/Chrony)： * 检查宿主机系统时间是否准确 (date)。 * 检查 NTP/Chrony 服务状态是否运行 (systemctl status ntpd/chronyd)。 * 检查是否与可靠的 NTP 服务器同步 (ntpq -p,chronyc sources)。 * 检查时间差是否在可接受范围内（通常要求 <= 100ms，越严格越好）。 *硬件报错： * 检查系统日志 (dmesg,/var/log/messages) 是否有硬件错误信息（CPU、内存、磁盘、Raid卡、网卡等）。 * 检查 IPMI/SEL 日志（如果宿主机支持并启用）。 * 检查smartctl -a /dev/sdX获取磁盘 SMART 健康状态。 * 检查 Raid 卡状态（MegaCli,storcli等工具）。 *宿主机运行时间： * 检查uptime。 * 评估是否需要安排重启以应用重要的内核更新或修复长时间运行可能累积的问题（需结合业务窗口）。 *宿主机磁盘使用情况： * 检查宿主机本地系统盘、数据盘（如用于缓存、临时存储）的使用率 (df -h)。 *关键阈值：系统盘/分区建议保持在 80% 以下，避免影响宿主机稳定性。 * 检查关键目录（如/var/log,/tmp）空间使用。 3. 云平台集群高可用性 (HA) 检查 *HA 状态： * 检查整个集群的 HA 功能是否全局启用且状态为Active或Healthy。 * 检查各 HA 组件的状态（如 VRRP 实例、健康检查服务）。 *HA 配置信息： * 检查 HA 配置是否符合预期（如故障切换策略、资源约束规则、隔离策略）。 * 验证配置是否一致且正确应用于所有相关节点。 *HA 仲裁方式： * 确认使用的仲裁机制（如基于共享存储的锁、基于多数节点投票、基于第三方仲裁服务）。 * 检查仲裁设备/服务的可用性和状态（如仲裁磁盘、仲裁节点）。 *未开启 HA 的虚拟机： * 扫描所有虚拟机，识别出未启用 HA 保护的实例。 *关键：评估这些 VM 的业务重要性和未开启 HA 的原因。对于关键业务 VM，应确保启用 HA。 * 生成报告并跟进处理。 4. 云平台计算资源检查 *宿主机资源使用： *CPU：检查每台宿主机的 CPU 总使用率、空闲率、等待率、Steal 率 (top,vmstat,sar)。识别 CPU 瓶颈主机。 *内存：检查每台宿主机的内存总使用量、空闲量、Buffer/Cache 量、Swap 使用量 (free -m,top)。识别内存紧张或频繁 Swap 的主机。 *集群资源使用： *CPU：汇总计算集群总的 CPU 资源（vCPU 核数）、已分配量、实际使用量、空闲量。 *内存：汇总计算集群总的内存资源（GB）、已分配量、实际使用量、空闲量。 *CPU 和内存超分情况： * 计算并监控 CPU 的超分比 (Allocated vCPU / Physical CPU Cores)。 * 计算并监控内存的超分比 (Allocated Memory / Physical Memory)。 *关键：评估超分比是否在合理、安全的范围内（根据业务负载特征和 SLA 要求确定）。过高的超分比可能导致资源争抢和性能下降。

阿里云平台健康检查巡检清单-运维篇包含哪些内容？

相关推荐