- 8
- 0
- 约5.97千字
- 约 43页
- 2020-03-06 发布于山西
- 举报
DevOps到AIOps-智能化故障处理系统
• 一.背景
• 二. 问题
• 三.解决
• 四.规划
• 五.QA
• 陈永清@翼课网
DevOps到AIOps-智能化故障处理系统
一 背景
• .
• 二. 问题
• 三.解决
• 四.规划
• 五.QA
• 陈永清@翼课网
一.背景
一.背景
一.背景
• 1.一个系统,不可能没告警(故障) 。
• 2.处理告警很痛苦。
• 3.不处理影响用户满意度。
• 4.不处理影响公司营收。
• 5. 处理了,处理好了,产品好用了,用户满意了,公司也有利了。
• 以上,当告警发生时,
• 1.技术人员需要在极短时间,接受各种压力,心情是焦虑的,茫然的,错愕的,担忧的,惆怅的。
• 2.用户需要承受使用产品过程中的不爽,不痛快。
• 3.公司需要承受指责。
• 4.客服需要承受漫骂。
DevOps到AIOps-智能化故障处理系统
• 一.背景
二 问题
• .
• 三.解决
• 四.规划
• 五.QA
• 陈永清@翼课网
二.问题-界定
• 1.如何高效、精准、快速的处理告警(故障) ?
• 2.什么时间处理。
• 3.谁处理。
• 4.处理到什么程度。
• 需要 定量、定性 分析
二.问题-“4个三”定方向
• 通过4个三 ,做定量定性分析。
• 三个步骤看流程,感知、分析、解决 是处理故障的三个步骤。我们从分析环节入手。
• 三个维度找方向,影响最大的、频率最高的、最难处理的 告警 找到‘痛点’。
• 三个集合做决策,告警+决策点+原因 三个集合,找到关联性。
• 三个10做定量,针对过去1年的10大类告警,以DBA人力需要10分钟以上分析出告警原因,现在要系
统10秒内分析出结果。
二.问题-故障生命周期
• 通过4个三 ,做定量定性分析。
• 三个步骤看流程,感知、分析、解决 是处理故障的三个步骤。我们从分析环节入手。
二.问题-找痛点
• 通过4个三 ,做定量定性分析。
• 三个维度找方向,频率最高的、影响最大的、最难处理的 告警 找到‘痛点’。
• 从过去1年,统计告警类型和对应出现次数,按照 出现次数最多,影响最大,最难处理,三个维度,
来决定,哪些告警(故障) 是痛点,最应该首先被智能化处理的。
• AAAAA类告警 10000次,影响xxx ,处理难度sss
• BBBBB类告警 500次,影响xxx ,处理难度sss
• CCCCC类告警 400次,影响xxx ,处理难度sss
二.问题-三个集合找关联
• 通过4个三 ,做定量定性分析。
• 三个集合做决策,告警+决策点+原因 三个集合,找到关联性。
二.问题-10秒内分析出核心告警原因
• 通过4个三 ,做定量定性分析。
• 三个10做定量,针对过去1年的10大类告警,以DBA人力需要10分钟以上分析出告警原因,现在要系
统10秒内分析出结果。
• 10大类告警
• 过去人需要10分钟分析出原因
• 现在需要做到10秒内分析出原因
二.问题-“4个三”定方向
• 通过4个三 ,做定量定性分析。
• 三个步骤看流程,感知、分析、解决 是处理故障的三个步骤。我们从分析环节入手。
• 三个维度找方向,影响最大的、频率最高的、最难处理的 告警 找到‘痛点’。
• 三个集合做决策,告警+决策点+原因 三个集合,找到关联性。
• 三个10做定量,针对过去1年的10大类告警,以DBA人力需要10分钟以上分析出告警原因,现在要系
统10秒内分析出结果。
• 总结 ,先解决 最痛的点,从 故障分析 环节入手,达到提升 准确率和效率 的目的。从而 减轻大家的
痛苦,让用户满意。
DevOps到AIOps-智能化故障处理系统
• 一.背景
• 二. 问题
三 解决
• .
• 四.规划
• 五.QA
• 陈永清@翼课网
三.解决
• 1.业务流
• 2.数据流
• 3.架构设计
• 4.算法
三.解决-业务流
• 1.业务流
原创力文档

文档评论(0)