Google网站可靠性工程SRE.pptxVIP

  1. 1、本文档共27页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

;;;;;;可靠性常常被误以为一件想当然的事情,但:

网站不能出故障;

服务不稳定时,大量问题会暴露出来;

是个长期工程,需要持续性投入,而不能在系统崩溃时才想起来;;好吧,我们不太情愿地同意:SRE是很重要的。

但那是OP的事吧?Op和Dev是不是经常有争执?;;;-开发人员发布的新版本里会包含新功能,但同时也包含了:UI或流程改变,代码里的新坑旧坑,以及一些新的实验内容;

-OP作为对代码理解最少的人,却需要按时将新版本上线

所以冲突和问题是不可避免的!

;答案是故障预算(ErrorBudget),当然首先需要一个SLA;;;;“故障预算”带来两大好处

1,可以缓解SRE-DEV冲突,将主观问题转化为客观问题;

2,开发团队可以依据它进行自我监督;;;“SRE+DEV”统一人力资源池

多一个SRE,就会少一个Dev

运维更充分,新功能更少,从而最终形成“自调节系统”;SRE只招合适的码农

能和开发人员沟通无碍;

了解机器能做什么;

喜欢创新,改进运维方式;

日常运维工作的时间不超过50%,更多时间做研发和探索;和DEV一起轮流做运维工作

让开发人员体验运维工作,了解他们的产品在实际运作中的状况,可以提升产品敏感性。

过多的运维工作就交给开发人员去承担;;SLA100%意味着会有服务中断,这是可以接受的。

但每次服务中断的处理,我们都有两个目标:

减少损失

杜绝再犯

;如何减少损失

尽可能缩短服务中断的时间。

NoNOC

充分的诊断信息

多多练习、实践(灾备演练);关于“多多练习”的方式

灾备演练并不是最酷的,最酷的是“幸运大转盘(随机灾难)”;关于“杜绝再犯”的做法

处理问题;

撰写事故分析报告;

清理和重置

交班时移交问题不宜过多;

值班人数不宜过多,8x1或6x2较合适;

;“事故分析”时要注意以下几点

“事故分析”是无可非议的流程,不用羞愧;

假定大家都是聪明的、善意的提出意见、建议;

专注在流程和技术层面,对事不对人;

建立事故时间轴;

搜集全部的事实;

后续事宜用bug来跟踪;

;招最合适的码农

提供的服务有SLA

按SLA来评估、报告性能

使用“故障预算”,和质量一票否决制

SRE和开发人员共享人才库

超额的OP工作转交开发人员

SRE的运维负载不超过50%

和开发团队共同承担5%的OP工作

值班团队需要8人,或6x2

值班交接时,未完事宜不能超过两件

每件事故都要有事后分析

事后分析对事不对人;更多SRE资料:

/blog/wp-content/uploads/2008/11/linuxworld-07-describesre.pdf

/blog/wp-content/uploads/2008/11/thatcouldnthappentous.pdf

文档评论(0)

LuckyBoy + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档