- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
服务器日常巡检规范
服务器日常巡检是保障系统稳定运行、预防故障发生的关键环节,需通过规范化、标准化的操作流程,全面覆盖硬件状态、系统运行、服务健康、安全防护及性能评估等核心维度,确保各环节可监控、可追溯、可优化。以下从具体操作内容、执行标准及注意事项三个层面展开说明。
一、硬件状态检查
硬件是服务器运行的物理基础,需每日对主机、存储及网络设备进行多维度检查,重点关注关键组件的运行状态与冗余能力。
1.主机硬件检查
-电源与散热:查看服务器电源模块指示灯(正常为绿色常亮),确认双路电源均处于供电状态(冗余电源需同时工作,单电源故障时应触发报警);检测风扇转速及运行声音(无明显异响,转速应随负载动态调整,可通过BMC管理界面或IPMI工具查看转速值,通常不超过额定转速的80%);检查机箱内部温度(通过iDRAC、iLO等管理工具获取,常规服务器主板温度应≤55℃,CPU温度≤75℃,超阈值需排查散热故障)。
-硬件指示灯:观察前面板及背板状态灯(正常为绿色常亮或慢闪,红色常亮/快闪表示故障),重点关注CPU、内存、PCIe卡等关键部件对应的指示灯;通过服务器管理软件(如DellOpenManage、HPEInsight)读取硬件健康日志,确认无“Critical”或“Warning”级报错(如内存ECC错误计数应≤10次/天,超阈值需更换内存)。
-冗余模块:验证RAID卡、HBA卡等关键组件的冗余状态(双RAID卡需均处于Active状态,主备切换功能需定期测试,确保故障时可自动切换);检查BMC/带外管理模块状态(IP地址可达,远程管理功能正常,日志无异常断开记录)。
2.存储设备检查
-RAID状态:通过RAID卡管理工具(如MegaCLI、srvadmin-storage)查看RAID级别、成员盘状态及重建进度(正常状态为“Optimal”,成员盘状态为“Online”;若出现“Degraded”需确认是否有“Offline”或“Failed”磁盘,重建进度需≤24小时完成,超时需排查磁盘或RAID卡故障)。
-磁盘健康:使用smartctl工具读取硬盘SMART信息,重点关注“Reallocated_Sector_Ct”(重分配扇区数,正常≤0)、“Uncorrectable_Error_Count”(不可校正错误数,正常≤0)、“Power_On_Hours”(通电时间,机械盘建议≤20000小时,超过需评估更换);观察磁盘指示灯(正常为绿色慢闪,红色常亮表示故障)。
-存储性能:通过iostat工具监测存储I/O延迟(读写延迟应≤10ms,队列长度≤2),使用fio工具定期测试随机读写速率(需符合磁盘标称性能的90%以上,如SSD随机读应≥200000IOPS,低于阈值需检查链路或磁盘故障)。
3.网络设备检查
-接口状态:查看网口指示灯(绿灯常亮表示链路连通,黄灯闪烁表示数据传输),通过ethtool命令确认接口速率与双工模式(需与交换机端匹配,如10G网口应协商为10G全双工,不一致需检查网线或光模块);检查接口错误计数(“rx_errors”“tx_errors”应≤0/天,超阈值需排查线路干扰或网卡故障)。
-流量负载:使用iftop或nload工具监控实时流量(峰值需≤带宽的70%,如10G网口峰值应≤7Gbps,超负载需优化流量分布或扩容带宽);分析流量趋势(HTTP/HTTPS流量占比是否正常,突发异常流量需排查DDoS攻击)。
-链路冗余:验证Bonding或LACP配置(主备模式下备用链路应处于“Standby”状态,负载均衡模式下流量需均匀分布;断开主链路后,备用链路应在≤50ms内接管,否则需检查配置或交换机联动)。
二、系统运行状态检查
操作系统是资源调度与服务承载的核心平台,需重点关注进程管理、资源使用及日志异常,确保系统处于健康运行状态。
1.基础信息核查
-系统版本:确认操作系统版本及内核版本(如CentOS7.9、内核3.10.0-1160.el7),记录是否为官方支持版本(非支持版本需纳入升级计划);检查系统启动时间(关键业务服务器建议≥30天无重启,频繁重启需排查硬件或内核问题)。
-进程管理:使用ps-ef或top命令查看进程状态(无“Z”状态僵尸进程,关键进程如sshd、crond、rsyslog应始终运行,进程数需≤系统最大进程数的50%,超阈值需排查内存泄漏或进程泄漏);通过pgrep或systemctl确认服务进程数(如Nginxworker进程数应与CPU核心数匹配,异常新增进程需识别是否为恶意程序)。
2.资源使用监控
-CPU负载:通过up
原创力文档


文档评论(0)