- 1
- 0
- 约3.71万字
- 约 52页
- 2026-05-19 发布于江西
- 举报
软件行业网络部网络工程师网络故障排查手册
第1章故障发现与初步研判
1.1故障现象收集与记录规范
在故障发生后的黄金30分钟内,网络工程师必须使用标准化的日志模板记录关键信息,确保时间戳精确到秒,包含源IP、目的IP、端口号、协议类型(如TCP/UDP)以及是否伴随ICMP请求,这是后续定位问题的基石。需区分物理层与数据链路层的具体异常,例如观察光模块的LED指示灯闪烁模式(如常亮代表正常、红光闪烁可能表示光功率过低或接收光功率异常),并拍照留存物理层接口指示灯状态。
对于核心交换机或路由器,必须抓取CPU利用率、内存占用率及风扇转速等系统级指标,若CPU占用率持续超过80%或出现内存溢出(OOM)错误,需立即标记为硬件故障风险。收集网络流量特征数据,包括带宽利用率(如95%)、丢包率百分比(如2.5%)以及延迟数值(如RTT超过50ms),这些数据用于判断是拥塞问题还是线路质量问题。记录用户侧的报障描述,区分是“连接超时”、“无法访问特定域名”还是“广播风暴”,并询问用户是否观察到特定的错误弹窗或颜色变化,以辅助判断故障性质。
必须实时记录设备当前的运行状态,如IP地址分配情况、路由表条目数量、ARP表项统计,若发现ARP表项数量剧增或IP冲突,需立即上报并冻结相关端口。
1.2影响范围评估与优先级分级
原创力文档

文档评论(0)