陈永清_从 DevOps 到 AIOps - 智能化故障处理系统.pdfVIP

  • 8
  • 0
  • 约5.97千字
  • 约 43页
  • 2020-03-06 发布于山西
  • 举报

陈永清_从 DevOps 到 AIOps - 智能化故障处理系统.pdf

DevOps到AIOps-智能化故障处理系统 • 一.背景 • 二. 问题 • 三.解决 • 四.规划 • 五.QA • 陈永清@翼课网 DevOps到AIOps-智能化故障处理系统 一 背景 • . • 二. 问题 • 三.解决 • 四.规划 • 五.QA • 陈永清@翼课网 一.背景 一.背景 一.背景 • 1.一个系统,不可能没告警(故障) 。 • 2.处理告警很痛苦。 • 3.不处理影响用户满意度。 • 4.不处理影响公司营收。 • 5. 处理了,处理好了,产品好用了,用户满意了,公司也有利了。 • 以上,当告警发生时, • 1.技术人员需要在极短时间,接受各种压力,心情是焦虑的,茫然的,错愕的,担忧的,惆怅的。 • 2.用户需要承受使用产品过程中的不爽,不痛快。 • 3.公司需要承受指责。 • 4.客服需要承受漫骂。 DevOps到AIOps-智能化故障处理系统 • 一.背景 二 问题 • . • 三.解决 • 四.规划 • 五.QA • 陈永清@翼课网 二.问题-界定 • 1.如何高效、精准、快速的处理告警(故障) ? • 2.什么时间处理。 • 3.谁处理。 • 4.处理到什么程度。 • 需要 定量、定性 分析 二.问题-“4个三”定方向 • 通过4个三 ,做定量定性分析。 • 三个步骤看流程,感知、分析、解决 是处理故障的三个步骤。我们从分析环节入手。 • 三个维度找方向,影响最大的、频率最高的、最难处理的 告警 找到‘痛点’。 • 三个集合做决策,告警+决策点+原因 三个集合,找到关联性。 • 三个10做定量,针对过去1年的10大类告警,以DBA人力需要10分钟以上分析出告警原因,现在要系 统10秒内分析出结果。 二.问题-故障生命周期 • 通过4个三 ,做定量定性分析。 • 三个步骤看流程,感知、分析、解决 是处理故障的三个步骤。我们从分析环节入手。 二.问题-找痛点 • 通过4个三 ,做定量定性分析。 • 三个维度找方向,频率最高的、影响最大的、最难处理的 告警 找到‘痛点’。 • 从过去1年,统计告警类型和对应出现次数,按照 出现次数最多,影响最大,最难处理,三个维度, 来决定,哪些告警(故障) 是痛点,最应该首先被智能化处理的。 • AAAAA类告警 10000次,影响xxx ,处理难度sss • BBBBB类告警 500次,影响xxx ,处理难度sss • CCCCC类告警 400次,影响xxx ,处理难度sss 二.问题-三个集合找关联 • 通过4个三 ,做定量定性分析。 • 三个集合做决策,告警+决策点+原因 三个集合,找到关联性。 二.问题-10秒内分析出核心告警原因 • 通过4个三 ,做定量定性分析。 • 三个10做定量,针对过去1年的10大类告警,以DBA人力需要10分钟以上分析出告警原因,现在要系 统10秒内分析出结果。 • 10大类告警 • 过去人需要10分钟分析出原因 • 现在需要做到10秒内分析出原因 二.问题-“4个三”定方向 • 通过4个三 ,做定量定性分析。 • 三个步骤看流程,感知、分析、解决 是处理故障的三个步骤。我们从分析环节入手。 • 三个维度找方向,影响最大的、频率最高的、最难处理的 告警 找到‘痛点’。 • 三个集合做决策,告警+决策点+原因 三个集合,找到关联性。 • 三个10做定量,针对过去1年的10大类告警,以DBA人力需要10分钟以上分析出告警原因,现在要系 统10秒内分析出结果。 • 总结 ,先解决 最痛的点,从 故障分析 环节入手,达到提升 准确率和效率 的目的。从而 减轻大家的 痛苦,让用户满意。 DevOps到AIOps-智能化故障处理系统 • 一.背景 • 二. 问题 三 解决 • . • 四.规划 • 五.QA • 陈永清@翼课网 三.解决 • 1.业务流 • 2.数据流 • 3.架构设计 • 4.算法 三.解决-业务流 • 1.业务流

文档评论(0)

1亿VIP精品文档

相关文档