潘杰-保卫波特姆第二季-稳定性工程能力实践.pdfVIP

潘杰-保卫波特姆第二季-稳定性工程能力实践.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

保卫波特姆第二季

稳定性工程实践

潘杰运行质量管理经理

背景概述

运营实践

后续规划

背景概述

快速迭代系统稳定性面临挑战

如何建立应用风险识别模型如何高仿真的模拟故障如何构建技术风险管理体系

Ø部署架构复杂Ø“人工断网、手杀进程”Ø风险管理文化

Ø业务链路长无法应对大量场景Ø配套人员组织

Ø调用关系复杂Ø“爆炸半径”难以控制Ø演练组织形式

Ø“交易不断、资金不乱”Ø平台技术手段

Ø“有损”演练影响业务

高标准要求Ø量化评估效果

Ø持续完善闭环

运营实践

威胁安全稳定运行的五大风险

单点故障风险功能缺陷风险性能容量风险数据丢失损坏风险运维误操作风险

应用部署单点输入检查异常数据库性能容量风险数据库数据丢失损坏监控配置

技术风险防范框架

稳定性工程平台建设

稳定性平台的建设紧紧围绕高仿真模拟故障、多维度数据分析、全流程自动化。

故障构建能力量化分析能力自动化能力

Ø支持批量创建场景

Ø支持Linux/Windows两种操作系统Ø支持系统稳定性评估

Ø“串行”任务集演练

Ø拥有近两百多种故障场景注入能力Ø用户行为分析

Ø“并行”批量演练

Ø支持灵活编排Ø演练运营报表多维度分析

Ø自动化演练

Ø可实现复杂历史故障回放能力

稳定性工程平台架构图

故障场景构造能力

故障编排能力

灵活的故障编排能力,实现复杂故障模拟能力

1.基础资源2.应用资源3.业务资源4.专项资源

üCPUü端口ü卡ü数据丢失损坏

ü磁盘ü进程ü吊ü数据库

ü内存üJVMü死ü容器

ü网络ü错ü微服务

LinuxOSWindowsOS

文档评论(0)

pig2005 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档