互联网行业运维部运维工程师系统故障排查手册
第1章故障现象采集与初步分类
1.1故障现象标准化描述规范
故障现象描述必须采用“时间-事件-状态”的线性时间轴结构,严禁使用模糊的定性语言(如“偶尔卡顿”),必须量化具体的发生时刻、持续时间及当时的系统负载指标,例如:“2023-10-2714:05:32检测到数据库连接池连接数从100突增至950并触发OOM错误,持续2分钟,当时CPU使用率85%。描述需严格遵循OSI七层模型或云原生架构分层逻辑,将故障现象拆解为网络层、传输层、应用层及数据库层的具体表现,例如:“应用层表现为HTTP503
原创力文档

文档评论(0)