- 1、本文档共65页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
蚂蚁故障应急全流程体系构建
及应用实践
刘凯宁
个人介绍
刘凯宁
l蚂蚁集团SRE技术专家
l熟悉全链路技术风险防控方案,深度参与过容量、资源、压测、应急、变更、资金安全等领域的业务布防和能力建设
l多次参与公司级超大型活动的稳定性保障,承担过大促保障队长、全链路压测负责人、全链路资源容量负责人、全链路资金安全保障负责人等角色
FixtheProblem,NottheBlame
wechat:mengqing-albert
dingding:liukaining2019
稳定性灵魂三问
n线上故障到底是什么?
n谁应该为线上稳定性负责?
n如何评价应急到底做的好不好?
目录
0201蚂蚁故障体系介绍蚂蚁应急体系介绍
02
01
蚂蚁故障体系介绍
04AI
04
AI助力,未来已来
03一个线上故障的全生命周期
蚂蚁故障体系介绍
蚂蚁故障体系故障定义
在日常运营中,无论什么原因导致我们服务中断、服务品质下降或用户服务体验下降的现象,称为故障,但不包括用户方环境或自身操作引起的问题
l用户服务体验下降:故障的核心要关注用户感受,可通过客诉舆情获知用户投诉,也可以通过监控渠道主动推知用户端的使用情况。
l服务中断、服务品质下降:即使没有用户投诉,没有多少用户使用,只要是蚂蚁集团提供的服务出了问题,都算故障。
l无论什么原因:无论是蚂蚁集团自身原因,还是第三方如供应商、运营商,或者蚂蚁集团调用了别人的服务出了问题,影响到用户,都是故障
l不包括的情况:用户方环境(没有联网等)或者自身操作引起
短时间内有多位用户拨打
短时间内有多位用户拨打
95188支付宝客服热线反馈某页面无法打开
是故障
某次开发迭代不小心引入问
某次开发迭代不小心引入问题代码,导致某应用的异步消息积压,无法正常消费
是故障
某运营商网络抖动,导致某
某运营商网络抖动,导致某日支付宝交易付款成功率同比昨日下跌5%以上
是故障
用户反馈错过参加某次定时
用户反馈错过参加某次定时秒杀活动,导致没有抢到心仪的某联名款皮肤盲盒
不是故障
蚂蚁故障体系故障等级
故障等级是一套事先约定好的衡量故障影响度的标尺,数字越小,级别越高
l
l故障影响度涵盖哪些方面?
服务成本(客诉量):
P4P3P2P1
JKMN
资损金额(理论):
P2P1
M
受影响用户量:
P4P3P2P1
JKMN
数据错误量:
P4P3P2P1
JKMN
影响数量:JKMN故障级别:P4P3P2P1
P5
P5
客诉量资损金额
客诉量资损金额受影响用户数数据错误量故障场景定义
事后作为标准,评价已经发生的故障等级,对影响多个产品线的故障,采用“就高原则”进行
事后
作为标准,评价已经发生的故障等级,对影响多个产品线的故障,采用“就高原则”进行最终定级
事前
针对明确的业务故障场景,需要100%监控覆盖,并接入GOC724盯屏,及时发现异常触发应急止血
l谁来定义?
P5业务开发质量业务稳定性接口人SRE
P5
业务
开发质量
业务稳定性接口人
SRE
业务铁三角
GOC
随有新业务或系统架构重大调整时,各业务可时以按需随时拉起
随有新业务或系统架构重大调整时,各业务可时以按需随时拉起review,定稿后邮件公示
定期
一般是每半年由GOC同学发起进行统一review,不同业务逐次进行故障场景及等级修订,定稿后邮件公示
蚂蚁故障体系故障序列
故障序列是一套根据故障根因及实际影响对故障进行分类的方式
C
C
文档评论(0)