- 1
- 0
- 约2.95万字
- 约 41页
- 2026-05-06 发布于江西
- 举报
软件开发行业运维部运维工程师服务器巡检手册(执行版)
第1章基础设施与硬件状态
1.1服务器物理环境监控
需使用专业硬件监控软件(如PRTG、Zabbix或国产UMC系统)开启“物理位置监控”功能,将目标服务器所在的机房机柜、温度传感器及湿度探头接入系统,设定阈值报警。检查机柜内部线缆走向,确保无交叉缠绕、无裸露铜线,并使用Velcro标签对每根电源线、网线及光纤进行标识,防止误插拔导致设备故障。
记录服务器所在机柜的实时温度数据,若温度超过45℃或低于25℃,需立即排查空调系统是否故障或机房环境通风不畅,必要时手动开启冷机或调整空调出风方向。观察服务器风扇转速指示灯,若风扇处于“停止”状态,说明电机过热或电源故障,需检查电源模块输出电压是否稳定,并手动强制重启风扇或更换风扇。检查服务器周边的防尘网是否被积灰堵塞,若有灰尘堆积导致散热效率下降,需使用压缩空气枪(需佩戴护目镜)进行低压吹扫,严禁使用高压气源直接冲击服务器内部组件。
定期(每周)在凌晨2:00至4:00的低温时段对机柜进行全量巡检,记录机柜内设备指示灯状态(红/黄/绿),确认无异常闪烁,并检查是否有非计划性的异常噪音。
1.2存储设备健康检查
登录存储管理系统(如ZFS、LVM或专用SAN管理软件),进入“健康检查”模块,查看RD阵列的SMART信息,重点
原创力文档

文档评论(0)