阿里巴巴故障治理领域的智能运维实践_架构师峰会_北京站.pptxVIP

  • 6
  • 0
  • 约5.04千字
  • 约 46页
  • 2023-06-30 发布于北京
  • 举报

阿里巴巴故障治理领域的智能运维实践_架构师峰会_北京站.pptx

阿里巴巴故障治理领域的智能运维实践王肇刚(梓弋)阿里巴巴集团 GOC事业部 高级技术专家王肇刚(花名 :梓弋)阿里巴巴集团 GOC事业部 高级技术专家负责阿里巴巴集团业务指标监控、业务故障管理工作。在时间序列异常检测、业 务故障定位及影响面分析、运维数据仓库和其它相关的智能运维领域有丰富的技 术经验积累和成果产出。在加入阿里巴巴之前 ,作为百度智能运维团队的架构师及核心项目负责人 ,主导 了服务于百度商业广告系统异常发现和故障定位的智能运维产品的设计和研发 , 并主导了百度运维数据仓库及百度智能运维平台的设计和研发工作。? 阿里巴巴故障治理业务流程及挑战? 引入智能运维的效果? 实战案例 :业务异常发现? 实战案例 :故障智能定级? 实战案例 :故障智能分析的探索? 智能运维项目落地的建议双11峰值背后的挑战巨大业务线的多样和复杂给服务稳定性带来挑战菜鸟供应链信息平台云零售搜索盒马鲜生村淘阿里健康基础设施淘宝手淘飞猪阿里通信钉钉蚂蚁金服优酷阿里妈妈天猫阿里云1688ICBUAE……安全业务数量及规模不断增大业务形态差异较大业务关联复杂线上故障需要统一的治理机制故障的影响面和根因需要统一收口和推送业务故障统一发现跨BU故障协同处理故障快速恢复需要统一的机制阿里巴巴全局故障治理流程故障快 速恢复故障发 现故障定 级故障通 告故障辅 助定位故障复 盘处理决 策业务流程业务痛点千万级别的运维 事件 ,哪些与业 务故障相关 ?快速恢复场景稍 纵即逝 ,如何实 时决策触发切换 ?故障等级定义差异较大传统监控系统误报漏 报较多判断条件繁多监控维护成本较大跨BU的应用依 赖复杂 ,如何梳 理追溯全球运行指挥中心故障演 练? 阿里巴巴全局故障治理业务流程和挑战? 引入智能运维的场景和效果? 实战案例 :业务异常发现? 实战案例 :故障智能定级? 实战案例 :故障智能分析的探索? 智能运维项目落地的建议引入智能运维的场景和效果系统自动推 荐可疑事件系统自动给 出故障情报80%?分钟5分钟故障发现 准确率故障切换 决策时间故障通告 耗时根因推荐人工收集 故障情报故障快速恢复40%1分钟1分钟依赖人的经验故障发 现故障定 级故障通 告故障辅 助定位故障复 盘故障演 练处理决 策智能时间序列异常检测算法智能规则 引擎故障智能分析 系统? 阿里巴巴全局故障治理流程和业务痛点? 故障治理领域引入智能运维的效果? 实战案例 :业务异常发现? 实战案例 :故障智能定级? 实战案例 :故障智能分析的探索? 智能运维项目落地的建议实战案例 :业务异常发现异常发现的业务背景业务指标监控项 (时间序列 )故障通告 故障等级定义 异常点“淘宝交易量下跌 %X是Pn故障”… …“[Pn][淘宝]淘宝交 易创建下跌X%”不同周期整体趋势的起伏假日效应异常发现的业务痛点—如何确定基线问题“下跌15%是和什么 相比下跌? ”分段静 态阈值无法应对业务局部趋 势变化同环比 /过去 N周分 段均值无法应用业务整体起 伏趋势异常发现的业务痛点—如何判定异常业务异常的判定尺度与曲线本身波动程度 相关与曲线宏观业务量相 关与时间点相关与业务特性相关时间序列异常检测的方案选择:端到端分类途径一分步求解 一步到位途径二 :回归(拟合基线) + 异常 判别回归 各类时序分解算法 方法可解释性强回归 各类机器学习模型 训练样本充足异常 简单策略判别 复合方法 异常 依赖标注判别 标准不统一 基于机器学习/深度学习 基于时间序列分解时间序列在线预测 :拟合基线可 分段历史平均 ARIMA 方STL 选Holt-Winters案质 量化评估KPI NAMEHolt-Winters历史数据平滑ARIMASTL淘宝交易创建0.2701.01.7搜索|广告-主搜店铺0.270.380.31.68手淘直充成功量1.380.561.20.3聚划算交易与创建0.570.390.572.72量 控 制基线质量分拟合基线的关键步骤 :数据预处理丢点补全预测“未来”日期类型划分局部趋势反馈异常判定—X倍-Sigma时间 片切 分根据残差分布进行聚合每个时间片的 X=N+Delta与残差相 关NDelta与用户反 馈相关异常判定—用户标注反馈关于 标注为运营而生的打标数据标注数据质量较差根据 容忍标准误差标注调整 Delta 防止参数抖动异常判定– 误报抑制冲高回 落时的 误报抑 制基线预处理分段策略基线 不准 时的 误报 抑制压测状态基线长期偏离状态基线质量在 线检查投票策略跳变检测局部特征数据预处理方 案优化STL参数优化异常检测算法及工程演进历程泛化的N-Sigma简易算法实验 平台时间区间干预 方案分解策略分化各类误报冲高、压测抑 制方案人工标注自动 反馈方案优化人工标注标准 细化和明确人工

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档