张观石-SRE体系-快速修复一个故障的套路.pdfVIP

张观石-SRE体系-快速修复一个故障的套路.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

1

SRE体系:快速修复故障的套路

张观石《SRE原理与实践》作者

ü资深运维专家和架构师,拥有20年经验;

ü熟悉基于微服务架构的直播业务、音视频业务、海外直

播业务的稳定的保障体系。熟悉混合多云架构、可观测

性、预案、变更管控、AIOps等领域;

ü信通院分布式系统稳定性实验室高级技术专家,参与编

写了信通院《信息系统稳定性保障能力建设指南》。

2

1.读过的都说好

•“可用于做SRE面试指南”

•“用于指导实际项目开展”,读了3遍

•送朋友、送客户、送同事

2.内容特点

•SRE工程体系完整

•先进实战案例丰富

3

案例:3个惨案现场

快速修复故障的基本套路

套路有多深:掌握故障规律

怎么看套路成效

4

5

故障案例1

•背景:数据库M-S架构,正常主从是同步的。

•故障描述:某天发现主从不同步了。

•处理方法1:在修复同步问题时无意中删除了一个文件,DBA用了另外一个

备份文件去替代。看起来是一样的文件,然后重启数据库。

•结果:结果数据库系统启动不起来。

2023年1月12日美国FAANOTAM系统

故障,全美12000个航班被延误或取消

6

故障案例2

•背景:机房冷机4主+4备的架构,主机故障可以手工切备机。

•故障描述:冷却系统缺水,导致4台主冷机服务异常。

•处理预案1:冷机切到备机系统,发现缺水形成了气阻,备用冷机启动失败。

•处理方法2:尝试一台台启动,阻力更小

•结果:启动不起来,发现冷机设计为4台绑定一起重启,目的是为了批量操作方便。

•紧急处理:只能远程与现场合作临时改代码逻辑、发布,解除群控逻辑。

某公有云AZ制冷故障,持续13小时

7

故障案例3

•背景:业务产品和管控系统都在A、B。两机房容灾部署

•故障:机房A挂了,大量迁移到机房B,用户集中迁移业务导致管控系统的

并发增加,被限流;

•预案:给管控系统扩容资源

•问题:增加容量的管控系统的一个中间件被部署在故障机房A,扩容操作失

某公有云AZ制冷故障,持续13小时

8

简单故障场景4

服务器磁盘被写满了,处理需要几步,需要多长时间

9

复杂故障场景5

•直播平台大活动期间卡顿率上升1%

1.怎么排查是哪部分、

2.怎么定位是什么原因,什么维度

3.怎么修复

10

故障修复的难点在哪?

系统复杂性系统复杂、故障场景多、脆弱性因素多,防不胜防;

文档评论(0)

pig2005 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档