- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
蚂蚁集团变更管控实践
俞灏宣蚂蚁集团
个人介绍
俞灏宣
蚂蚁集团-技术专家
蚂蚁集团智能变更管控平台与智能变更异常检测技术负责人,变更管控开源社区AlterShield负责人。在高可用技术领域沉淀5年,在变更管控领域有丰富的实践经验。帮助蚂蚁集团防控了近千笔生产环境变更故障,并初步实现了蚂蚁集团的变更无人值守。
GOP
GOPS全球运维大会2023·上海站
1
1
变更管控的意义
目录
目录
CONTENTS
2
2
变更管控的方法和架构
3
3
变更管控如何智能化
4
4
我们的未来规划
01变更管控的意义
变更管控的价值与复杂性
编码和变更问题占比一半以上
稳定性问题引发因素:变更是导致线上稳定性问题的主要引发因素,如何进行变更风险防控,降低企业的稳定性风险。
亚马逊系统复杂度NETFLIX系统复杂度
系统复杂度无法避免:任何设计系统的组织产生的所有设计都将受限于组织间的沟通结构。
GOP
GOPS全球运维大会2023·上海站
变更管控的价值与复杂性
随着企业/业务体量的增
大,研发模式必然会向着更多元、更复杂的形式演进。中间会存在大量的沟通成本与信息差
组织协同
研发效率
?技术研发:追求敏捷开发、DevOps
?业务运营:高效的配置变更,快速上线运营活动
系统复杂性接口依赖、数据依赖、消息依赖
系统复杂性
GOP
GOPS全球运维大会2023·上海站
02变更管控的方法与架构
如何定义变更
1.变更≠ops
2.变更是对线上服务“状态”的修改
3.操作由内部人员发起
代际名称
代际名称
支持的变更流程和生效方式
G0
以事件通知的协议接入,不提供管控能力,仅可做变更事件的通知、搜索
G1
对于无法按照批次拆分一步一步生效的变更,做单节点的变更流程管控
G2
可以按照批次拆分生效的变更(如集群服务器重启),做完整工单的变更流程管控
G3
在有完整的变更工单管控的基础上,增加了变更提单阶段的管控
G4
在变更提单管控的基础上,增加了变更无人值守的决策能力
OCMS
OCMS(OpenChangeManagementSpecification)
?从技术视角,定义变更的信息与技术模型
?兼容不同背景下的各类变更,做到“统一化”
?屏蔽上层业务带来的信息差异,为后续变更防御、变更搜索、变更审计提供标准模型
?为其他技术风险领域能力,提供标准的信息结构
?让更专业的人做更专业的事
GOP
GOPS全球运维大会2023·上海站
如何防控变更中的风险
1.不可能100%提前发现所有问题
2.使变更引发的风险可控/可接受
3.相对完善的前后置防御能力
4.随着变更的持续执行,风险的发生概率是逐步收敛的
GOP
GOPS全球运维大会2023·上海站
灵活的变更防御框架
1.防御能力路由:针对不同变更,通过配置表达式的形式,路由到不同防御能力集合,满足不同背景下变更的防御检测多样性诉求
2.防御能力调度与并行执行:各防御能力间相互独立,按照一个“统一的结构”进行返回
3.开放性的防御SPI:不同部门/业务的风险防控人员,
可根据自己的需求,以FaaS化的形式进行防御校验逻辑的集成
GOP
GOPS全球运维大会2023·上海站
03变更防控如何智能化
从研发的视角入手
时序指标的异常检测我的CPU利用率有没有飙升?
时序指标的异常检测
日志上下游监控
日志
上下游
日志异常堆栈的变化情况检测我的日志里面有没有
日志异常堆栈的变化情况检测
我的日志里面有没有Error?
链路级别的业务错误检
链路级别的业务错误检测
我的上下游系统的服务,
有没有报错
GOP
GOPS全球运维大会2023·上海站
时序指标异常检测–智能变更监控
GOP
GOPS全球运维大会2023·上海站
日志堆栈异常检测–新增/突增异常
训练阶段:将通用错误日志中的异常信息进行正则化处理,并将处理后的日志正则模板按照相似度进行分类,构造该系统的日志模板库。
预测阶段:将系统实时采集异常日志信息同样进行正则化处理,并与模板库中全量模板进行相似度拟合,得出该异常是否为新增异常的结论;针对突增异常,需要计算异常模板计数,预测思路和时序异常检测思路相似。
GOP
GOPS全球运维大会2023
您可能关注的文档
最近下载
- 四川省雅安市2023-2024学年八年级下学期期末考试数学试题.docx VIP
- 《客厅精细化设计》课件.ppt VIP
- 2025中国银行中银国际证券股份有限公司招聘8人笔试模拟试题及答案解析.docx VIP
- 脊柱结核术后护理.pptx VIP
- 行政法与行政诉讼法 试卷及答案 多项选择题(同名48525).doc VIP
- 地铁车站客伤处理.pptx VIP
- 2025活跃用户研究报告小红书平台.pdf VIP
- 丙烯腈催化剂产品技术标准要求2023年.docx
- 互联网传媒行业市场前景及投资研究报告:小红书,头部内容社区.pdf VIP
- 小学信息技术(信息科技)五年级全一册义务教育版(2024)合集.docx
文档评论(0)