- 2
- 0
- 约3.37万字
- 约 48页
- 2026-05-17 发布于江西
- 举报
2025年互联网行业运维部运维工程师系统巡检规范手册
第1章基础设施与网络环境巡检
1.1服务器硬件状态监测与故障排查
首先使用`lscpu`和`vmware-vmkperf`命令检查CPU频率与温度,确认当前负载下的温度是否超过75℃,同时通过`top`命令观察CPU使用率是否异常飙升,若发现某核心持续高于50%且伴随延迟增加,需立即标记该节点。执行`smartctl-a/dev/sdX`对硬盘进行全盘SMART检查,重点查看Reallocated_Sector_Ct和Offline_Uncorrectable字段,若出现非零值或警告级别,需记录具体扇区损坏位置并制定更换计划,严禁直接强行断电。
通过`iostat-x15`观察磁盘I/O等待时间(%util),若连续10次平均等待时间超过50ms,说明磁盘性能瓶颈已显现,需检查是否因负载过高导致I/O延迟激增。使用`nvidia-smi`实时监控GPU温度与显存占用率,若显存利用率超过85%且温度接近临界值,需确认显存是否因显存溢出(OOM)导致死锁,必要时通过`oom-kill`清理进程。检查内存泄漏情况,通过`free-m`查看内存使用量,若某进程内存持续增长且未释放,需结合`strace`追踪其系统调用,排查是
您可能关注的文档
最近下载
- 2026年江苏卫生系统招聘考试(生物信息学)历年参考题库含答案详解.docx VIP
- yatai亚泰变频器YT900说明书.pdf
- 广东省紧缺人才(临床药师)肿瘤专业理论试题.docx VIP
- 1、高中高二田径教案一等奖全集.docx VIP
- 动物园策划方案.pptx
- 第三课 坚持和加强党的全面领导 课件-高考政治一轮复习统编版必修三政治与法治.pptx VIP
- 机械基础教材第五章连接与紧固知识.pptx VIP
- 新世纪大学英语(第四版)视听说教程第2册高霞课后习题答案.pdf
- 2026年高考考前最后一卷:物理最后一卷(江苏卷02)(解析版).docx VIP
- 感冒发烧的病例证明书.docx VIP
原创力文档

文档评论(0)