sucday7-智能运维-课件作业操作指引day7-aiops.pptx

sucday7-智能运维-课件作业操作指引day7-aiops.pptx

  1. 1、本文档共22页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
华为APM——智能化.王琛 wangchen53@2018年11月22日响应速度应用规模复杂度运维现状ComplexitySpeedScalability DevOps —— Current StatusSRE = Site Reliability EngineerRebootAPM —— 提高响应速度APM helps you to efficiently solve application performance problemsMany companies see up to 60-70% reduction in MTTR and in business impact by using APM solutions[1].许多公司在使用了APM后,系统问题的平均修复时间减少了60%-70%,从而也降低了对业务的影响[1]。32%32%36%发现问题定位问题解决问题PROBLEM IDENTIFICATIONPROBLEM TROUBLESHOOTINGPROBLEM RESOLUTIONVote for most challenging part / 您觉得最有挑战的部分2?1 /10-business-benefits-of-apm-application-performance-management2 Poll by L智能化APM解决方案Artificial Intelligence Enabled APM Solution目标:及时发现问题案例:VoltDB 挂了很久没有人发现,直到大规模影响业务才被感知发现问题PROBLEM IDENTIFICATION有效性(闭环)解决问题定位问题PROBLEM DIAGNOSISPROBLEM RESOLUTION目标:高效解决问题案例:问题很清晰,但是解决问题,需要一系列的调研工作,外加经历频繁试错,这一过程可能相当冗长目标:准确定位问题案例:VM的内存被撑爆,无法定位是因为哪个应用实例的内存异常导致智能化APM解决方案Artificial Intelligence Enabled APM Solution智能复合事件处理引擎 Complex Event Process (CEP) Engine基于特征窗口的方法基于动态阈值的方法原理:通过对时间窗口特征值提取,建立特征向量;基于特征向量,比较窗口间相似度,识别异常窗口K-均值算法(K-Means)层次聚类(Hierarchical Clustering)原理:利用时间序列过去及现在的值,学习指标随时间变化的模式,利用这个规律来预测未来值(即基线),并计算置信区间(基带)差分整合移动平均自回归模型(ARIMA)长短期记忆网络(LSTM)批处理(Batch Processing)对于状态变化效果较好对于严重的异常准确率较高,对小的异常不够敏感基于异常窗口告警在线处理(Online Processing)对于有很强规律(周期/趋势)的数据效果比较好对毛刺/突变效果比较好基于变化点告警流数据异常检测引擎 Streaming Data Anomaly Detection Engine调用链数据异常检测指标数据异常检测日志数据异常检测1. 异常调用链结构发现正常执行的应用,调用链结构应该呈现一定的规律性,异常调用链结构可能反映异常执行状态(比如错误),可用于异常发现稀有链结构断链1. 日志解析事件模板提取,支持用户通过关键字自定义事件基于聚类(clustering)的算法基于启发式(Heuristic) 算法2. 事件时序向量提取基于窗口的方法,生成事件统计矩阵(日志离散事件转化成连续型类指标数据)固定窗口大小(fixed window)滑动窗口(sliding window)基于Session的窗口2. 慢链定位通过指标数据异常功能,可以发现慢的调用链,慢链分析目的在于进一步定界问题,分析出是哪一个span慢导致的调用链慢慢的定义:绝对值:不可能对每个span的耗时设定静态阈值相对值:对比历史数据和当前场景,相对较慢对每个span历史执行分析,定位出导致当前慢链的相关性挑战:不同场景对异常的定义不统一正常和异常行为界限不清缺失对异常行为的标记数据正常状态模式随实时计算环境动态变化异常状态可能转变为正常状态异常种类:值异常(Value)趋势异常(Trend Change)周期异常(Seasonality Change)状态变化(Level Shift)3. 异常检测复用流数据异常加测引擎,识别稀有事件,突发事件等异常312目录指标.日志.调用链.第一部分Part I指标.指标异常检测Anomaly Detection指标监控一个问题,对应多个征状多个征状映射潜在的问题(类似医生诊断)因此,指标监控有助于发现异常,定位问题传统方法:静

文档评论(0)

136****1820 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档