蚂蚁集团变更管控实践.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

蚂蚁集团变更管控实践

俞灏宣蚂蚁集团

个人介绍

俞灏宣

蚂蚁集团-技术专家

蚂蚁集团智能变更管控平台与智能变更异常检测技术负责人,变更管控开源社区AlterShield负责人。在高可用技术领域沉淀5年,在变更管控领域有丰富的实践经验。帮助蚂蚁集团防控了近千笔生产环境变更故障,并初步实现了蚂蚁集团的变更无人值守。

GOP

GOPS全球运维大会2023·上海站

1

1

变更管控的意义

目录

目录

CONTENTS

2

2

变更管控的方法和架构

3

3

变更管控如何智能化

4

4

我们的未来规划

01变更管控的意义

变更管控的价值与复杂性

编码和变更问题占比一半以上

稳定性问题引发因素:变更是导致线上稳定性问题的主要引发因素,如何进行变更风险防控,降低企业的稳定性风险。

亚马逊系统复杂度NETFLIX系统复杂度

系统复杂度无法避免:任何设计系统的组织产生的所有设计都将受限于组织间的沟通结构。

GOP

GOPS全球运维大会2023·上海站

变更管控的价值与复杂性

随着企业/业务体量的增

大,研发模式必然会向着更多元、更复杂的形式演进。中间会存在大量的沟通成本与信息差

组织协同

研发效率

?技术研发:追求敏捷开发、DevOps

?业务运营:高效的配置变更,快速上线运营活动

系统复杂性接口依赖、数据依赖、消息依赖

系统复杂性

GOP

GOPS全球运维大会2023·上海站

02变更管控的方法与架构

如何定义变更

1.变更≠ops

2.变更是对线上服务“状态”的修改

3.操作由内部人员发起

代际名称

代际名称

支持的变更流程和生效方式

G0

以事件通知的协议接入,不提供管控能力,仅可做变更事件的通知、搜索

G1

对于无法按照批次拆分一步一步生效的变更,做单节点的变更流程管控

G2

可以按照批次拆分生效的变更(如集群服务器重启),做完整工单的变更流程管控

G3

在有完整的变更工单管控的基础上,增加了变更提单阶段的管控

G4

在变更提单管控的基础上,增加了变更无人值守的决策能力

OCMS

OCMS(OpenChangeManagementSpecification)

?从技术视角,定义变更的信息与技术模型

?兼容不同背景下的各类变更,做到“统一化”

?屏蔽上层业务带来的信息差异,为后续变更防御、变更搜索、变更审计提供标准模型

?为其他技术风险领域能力,提供标准的信息结构

?让更专业的人做更专业的事

GOP

GOPS全球运维大会2023·上海站

如何防控变更中的风险

1.不可能100%提前发现所有问题

2.使变更引发的风险可控/可接受

3.相对完善的前后置防御能力

4.随着变更的持续执行,风险的发生概率是逐步收敛的

GOP

GOPS全球运维大会2023·上海站

灵活的变更防御框架

1.防御能力路由:针对不同变更,通过配置表达式的形式,路由到不同防御能力集合,满足不同背景下变更的防御检测多样性诉求

2.防御能力调度与并行执行:各防御能力间相互独立,按照一个“统一的结构”进行返回

3.开放性的防御SPI:不同部门/业务的风险防控人员,

可根据自己的需求,以FaaS化的形式进行防御校验逻辑的集成

GOP

GOPS全球运维大会2023·上海站

03变更防控如何智能化

从研发的视角入手

时序指标的异常检测我的CPU利用率有没有飙升?

时序指标的异常检测

日志上下游监控

日志

上下游

日志异常堆栈的变化情况检测我的日志里面有没有

日志异常堆栈的变化情况检测

我的日志里面有没有Error?

链路级别的业务错误检

链路级别的业务错误检测

我的上下游系统的服务,

有没有报错

GOP

GOPS全球运维大会2023·上海站

时序指标异常检测–智能变更监控

GOP

GOPS全球运维大会2023·上海站

日志堆栈异常检测–新增/突增异常

训练阶段:将通用错误日志中的异常信息进行正则化处理,并将处理后的日志正则模板按照相似度进行分类,构造该系统的日志模板库。

预测阶段:将系统实时采集异常日志信息同样进行正则化处理,并与模板库中全量模板进行相似度拟合,得出该异常是否为新增异常的结论;针对突增异常,需要计算异常模板计数,预测思路和时序异常检测思路相似。

GOP

GOPS全球运维大会2023

文档评论(0)

哈哈 + 关注
实名认证
文档贡献者

嗨,朋友,我都会用最可爱的语言和最实用的内容,帮助你更好地理解和应对职场中的各种挑战!

1亿VIP精品文档

相关文档