- 1、本文档共36页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
从“救火”走向“防火”
——商业平台业务运维实践
救火
防火
时间都去哪儿了
救火
防火
? 越是做到高级阶段,防火的工作所占的
比重就会越高。
? 从救火到防火,不是一蹴而就的事情,
应该是个逐渐演进的过程
思考点
发生
发现
响应
全部恢复
时间
故障发现
故障响应
故障修复
开始处理
故障定位
提升故障
发现率
提升故障处理速度
降低故障率
目标
故障预防
过程
Agenda
如何提升故障处理速度
如何提升故障发现率
如何降低故障率
1
2
3
故障响应规范
应急处理预案
这些都做了,还有提升的空间吗?
准确识别
故障响应时间
目标与措施
快速判断
故障定位时间
快速执行
故障修复时间
?
?
?
?
?
7*24值班规范 ? 分析数据及图表 ? 流量切换工具
? 报警内容 ? 服务降级工具
职责与分工 ? 故障运维手册 ? 数据修复工具
故障预演 ? 任务修复工具
? 回滚工具
? 数据提取工具
? ……
主要受哪些影响因素
影响因素
1、新手
2、故障处理步骤繁杂
应对方法
优化报警内容,使报警内容变得
可依赖。报警内容除了报告问题,还将
故障的判断和处理方法附在其中。
利用数据任务调度管理系统,
对数据任务进行统一管理
优化报警内容
该报警对应的运维专员联系方式
该报警对应的开发人员联系方式
减少对运
维人员经
验的依赖,
使得新人
和值班人
员都可以
快速处理
灵活配置报警内容
降低维护成本,
提升工作效率
繁杂数据故障处理
存在的问题:
? 不能快速识别哪些任务失败了,影响了谁
? 一个任务失败会导致多个任务失败,每个任务的任务都会发一个报警
? 处理多个任务失败时,需要人工确认修复顺序,还要等待每个任务执
行完成后再人工执行下一个
? 如果所需数据源存在短暂延迟到位,会导致任务执行失败并报警,有
时会对运维人员产生干扰
A
B
C
D
E
F
G
H
I
J
K
L
M
…
繁杂数据故障处理
数据任务调度管理系统:
? 实时自动的可视化数据任务关系图
? 能快速识别哪些执行失败及影响范围
? 父节点任务失败后报警,子任务节点不再执行(也不会报警)
? 恢复关键路径节点任务时,只需选择带依赖执行,后续子节点任务会
自动执行,无需人工干预,等待
? 支持每个任务自定义重试次数和间隔,如果任务所需数据源存在延迟
提供现象,不会马上报警,直到达到最大重试次数为止,降低对运维
人员的干扰
A
B
C
D
E
F
G
H
I
J
M
L
K
…
…
繁杂数据故障处理
Agenda
如何提升故障处理速度
如何提升故障发现率
如何降低故障率
1
2
3
?
?
?
?
?
?
?
?
网络连通性
机器存活
远程可达
丢包检测
容量监控
磁盘故障
磁盘坏道
内存条检测
基础资源类
完善监控指标
常规业务类
自定义业务类
?
?
?
?
端口
进程
Curl
工作日志
?
?
?
?
?
?
?
?
任务始止类
关键组件监控
一致性类
跨界类监控
数据流监控
超时/延时类
失败率/成功率
……
自定义业务类监控
……
……
监
控
项
低位警界线
业务系统健康度趋势
高位警界线
监
控
项
加强关注!
加强关注!
导致
全面
短信报警过多
产生
麻木心理
降噪
?监控的系统:300+
?监控的实例:20000+
?运维人员短信接收:人均每天6条
?报警策略
?报警分层
?精准下发
取得的效果
采用的手段
报警分层
网段可用
机器存活
远程可达
业务类
A
B
C
D
E
F
G
H
I
J
M
L
K
…
…
数据依赖任务
报警精准下发
运维值班1
运维值班2
运维专员1
运维专员2
运维专员3
运维专员4
运维专员N
开发人员1
开发人员2
开发人员N
Agenda
如何提升故障处理速度
如何提升故障发现率
如何降低故障率
1
2
3
它山之石,可以攻玉
数据说话
有针对性的推动改进!
避免重复性故障!
代码发布是故障的导火索
上线次数趋势图
异常处理趋势图
推动开发人员有针对性解决
? 程序Bug
? 设计缺陷
? 代码配置
? 部署问题
变更操作是故障的导火索
?
?
?
?
?
业务模块新增机器
您可能关注的文档
最近下载
- 2024年4月广东深圳市光明区马田街道办事处招聘一般专干及笔试历年典型考题及考点剖析附答案带详解.docx
- 文秘技能大赛题库完整.pdf
- 建筑工程图集 07SJ504-1 隔断、隔断墙(一).pdf
- 班级管理方案和班委职责与班级管理条例(范本)合集.doc VIP
- 2025年广东省高中语文学业水平合格考试卷试题(含答案详解).pdf VIP
- 金融监管学银行监管讲义课件.pptx
- 高中体育与健康_篮球 传切配合 教学课件设计.ppt
- 二 《简单相信,傻傻坚持》(教学课件)-【中职专用】高二语文精讲课堂(高教版2023·职业模块).pptx VIP
- 人教版《劳动教育》九年级 劳动项目二《三餐有营养》课件.pptx
- 2024年中考语文一轮复习(全国)(老师用)议论文写作(练习).pdf VIP
文档评论(0)