- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
故障管理处理方案
一、故障发现与上报
1.监控体系
1.1指标采集:Prometheus每15秒拉取一次CPU、内存、磁盘IO、网络吞吐、应用QPS、错误率、延迟P99;Node-Exporter、Blackbox-Exporter、JMX-Exporter、Mysqld-Exporter覆盖主机、网络、中间件、数据库四栈。
1.2日志采集:Filebeat直采容器stdout、宿主机/var/log、业务自定义路径;Kafka缓存24h,Logstash清洗后入Elasticsearch,索引按天滚动,保留30天;关键字段(traceId、userId、orderId)落盘时强制落索引。
1.3链路追踪:JaegerAgent以sidecar方式注入Pod,采样率动态配置,核心接口100%,边缘接口1%,保证异常链路必采。
1.4告警通道:Alertmanager分组抑制,同产品同模块5分钟内多告警合并为一条;通道分级:企业微信工作通知(L1)、语音电话(L2)、短信(L3)。
1.5告警阈值:CPU80%持续3分钟、P99延迟1s持续2分钟、错误率5%持续1分钟、磁盘剩余10%立即触发;阈值每季度根据基线调整一次。
2.人工发现
2.1客服工单:客服系统与JIRA打通,工单自动生成故障单,字段预填:用户账号、发生时间、页面截图、操作路径。
2.2群内上报:值班群@OnCall机器人,机器人30秒内未回复则升级电话;群内关键词“宕机”“打不开”“报错”自动创建P1故障单。
二、故障定级与分诊
1.定级标准
P0:核心支付、下单、登录不可用,影响流水30%或客诉100例/小时;
P1:非核心功能不可用,影响流水10%–30%;
P2:体验降级,如图片加载慢、搜索延迟高;
P3:局部提示错误,不影响主流程。
2.分诊流程
2.1值班工程师3分钟内认领,未认领则自动升级至二线;
2.2若10分钟内无法定位模块,立即拉架构、运维、DBA、安全、业务五方会议;
2.3分诊后建立“故障作战室”飞书群,群公告固定模板:故障现象、影响面、已知线索、下一步动作、ETA。
三、应急止血
1.三板斧
回滚:Kubernetes回滚指令kubectlrolloutundodeployment/xxx–to-revision=N,30秒内完成;
降级:开关在配置中心Apollo,key命名空间“circuit.xxx”,一键关闭非核心功能;
重启:Pod级重启顺序先边缘后核心,避免雪崩;对有状态服务采用滚动重启,一次20%。
2.流量调度
2.1DNS层面:阿里云云解析权重置0,将流量切到异地容灾集群,TTL30秒;
2.2网关层面:SpringCloudGateway动态路由,Nacos配置灰度版本号=“off”,实时生效;
2.3容器层面:HPA自动缩容异常Pod,同时扩容健康Pod,保证副本数≥minReplicas。
3.数据保护
3.1主库异常:MHA自动切换,VIP漂移5秒;若MHA失败,人工执行“半同步转异步”提升复制延迟容忍;
3.2误删数据:延迟从库1小时,确认误操作时间点,使用binlog2sql回滚;
3.3缓存击穿:Redis集群开启“本地锁+互斥锁”,单热点key失效时,仅允许一个线程回源,其余线程等待200ms内返回空值。
四、根因定位
1.时间线还原
1.1统一时区:所有节点强制NTP同步,chrony偏移50ms即告警;
1.2事件串联:以traceId为维度,拉通Nginx访问日志、应用日志、慢SQL、系统调用、变更记录;
1.3可视化:Grafana新建“IncidentReview”Dashboard,模板变量$traceId,自动绘制错误率、CPU、GC、网络重传四条曲线,一眼定位拐点。
2.变更排查
2.1代码变更:Git对比故障前24h内合并的PR,按服务过滤,优先看“配置”“SQL”“线程池”关键字;
2.2配置变更:Apollo发布历史导出CSV,字段含发布人、Key、旧值、新值、发布时间;
原创力文档


文档评论(0)