互联网行业运营部运维工程师系统巡检手册.docxVIP

  • 1
  • 0
  • 约2.43万字
  • 约 35页
  • 2026-05-24 发布于江西
  • 举报

互联网行业运营部运维工程师系统巡检手册.docx

互联网行业运营部运维工程师系统巡检手册

第1章基础设施与网络连通性

1.1核心业务服务器集群状态核查

登录至集群管理控制台(如KubernetesDashboard或云厂商控制台),定位到目标业务集群的节点列表,逐一进入节点详情页面,检查节点状态指示灯是否显示为绿色,确认系统状态为Running,若发现节点状态为Stopped或CrashLoopBackOff,需立即记录报错日志并判断是否为资源不足或镜像拉取失败导致的异常。接着,在节点详情页面查看CPU使用率与内存占用情况,若CPU使用率连续5分钟超过80%且持续上升,或内存使用率超过90%且出现OOM(OutofMemory)警告,需进一步检查容器日志中是否有频繁的`SIGKILL`或`OOMKilled`错误,以确定是应用代码逻辑问题还是系统资源瓶颈。

随后,进入容器运行状态监控界面,筛选出所有运行中的Pod,查看其`LastState`是否稳定,若发现Pod处于`Terminating`或`Failed`状态,需检查`Reason`字段是否为`CrashLoopBackOff`或`ImagePullBackOff`,并尝试在控制台执行`kubectlgetlogspod-name`命令查看最新错误堆栈。同时,访问集群访问控制列表(

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档