58集团在AIOps领域的实践和整体思路 PPT.pptVIP

58集团在AIOps领域的实践和整体思路 PPT.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
流量预测的效果 根据历史数据预测明天的数据 异常检测 构建合适的对比样本库,提取特征用于对比 当日前n分钟流量数据 昨日同时刻前后n分钟流量数据 上周同时刻前后n分钟流量数据 对比样本库 对比样本库统计特征: 均值 中位数 标准差 最大值 最小值 偏度 峰度 样本对比特征: 差值 比值 同比 环比 异常时流量一定有反常的波动 异常发生频率较低 统计判别结合无监督算法解决样本初始无标记问题 有监督算法——LightGBM 基于梯度提升树(GBDT)原理 采用直方图算法,训练速度快,准确率高,可处理大规模数据 支持类别特征 异常检测的效果 基于数据异常程度将异常分为:普通异常、严重异常、陡变异常 异常分级——普通异常 普通异常:数据与预期有一些短期的小的偏差,可能是与少量的用户突发访问或爬虫抓取引起的 能发现短暂的流量异常,比较灵敏,通过连续n次异常才告警的策略过滤掉毛刺 识别算法:机器学习算法判别 异常分级——严重异常 严重异常:数据长时间出现了较大的偏离,需要排查数据变化的原因 可能是由于网络故障、系统故障或流量推广活动等引起较大的数据变化 识别算法:机器学习算法+历史同期数据统计判别 异常分级——严重异常 ? 基于历史统计特征对比 基于用户反馈调节阈值 结合机器学习算法确认异常 异常分级——陡变异常 陡变异常:流量突然出现断崖式的增长或者下跌 可能是受突发的网络流量攻击,或者系统出现严重问题,需要立刻高优先级排查和解决 识别算法:机器学习算法+均值比值阈值校验 异常分级——陡变异常 ? 多点平滑,去除一般毛刺 最大/最小值去除,避免个别极端值影响 结合机器学习算法确认异常 异常检测模型的普适性 模型在时间序列异常检测问题上表现出较好的普适性 适用于不同数量级的数据; 适用于不同变化规律的数据; 适用于不同业务的数据; 流量预测模型的个性化 网络流量预测-业务集群访问量预测(使用多个模型进行预测) 智能监控概述 关键指标的智能监控 智能告警合并 智能根因分析 智能故障自愈 智能故障预警 智能故障告警——实现的基础 对告警的需求 告警收敛 精准告警 告警发送策略 告警分级:邮件-微信-短信-语音 连续m次异常则告警/在m分钟时间段内有n次异常则告警 告警间隔5分钟,最多告警n次 30分钟后未处理则升级,1天后未处理则提醒 告警升级后使用升级后的告警级别和接收人 智能告警合并 合并时间窗口 1分钟(可自定义) 合并策略 根据集群合并 根据IP合并 根据网段合并 根据异常种类合并 根据宿主机与虚拟机的关系合并 合并收益 避免海量告警轰炸 快速掌握故障情况 辅助决策故障根因 智能告警合并维度选择 类比决策树算法,基于基尼值最小化自动选择告警合并维度; ? 基尼值 ? 智能告警合并维度选择 … 集群 = 58tongcheng 异常信息 = 页面关键字异常 合并条数 = 16 集群 = 58tongcheng 异常信息 = 页面状态码非200 合并条数 = 16 集群 = 58tongcheng 异常信息 = 页面连接错误 合并条数 = 14 集群 = ganji 异常信息 = 页面连接错误 合并条数 = 2 集群 = anjuke 服务器ip = 192.168.40.82 合并条数 = 2 智能告警合并维度选择 集群=? 异常信息=? ganji 合并条数=16 合并条数=14 合并条数=16 合并条数=2 58tongcheng anjuke 页面连接错误 页面连接错误 页面状态码非200 异常信息=? 服务器ip=? 合并条数=2 页面关键字异常 192.168.40.82 1.遍历全部备选维度,确认当前合并维度; 2.基于合并维度划分数据集,继续选择合并维度; 3.到达停止条件后停止; 标题文字内容 Click here to add Title 58集团在AIOps领域的实践和整体思路 关键指标的智能监控 智能告警合并 智能根因分析 智能故障自愈 智能监控概述 智能故障预警 智能监控概述 智能告警合并 关键指标的智能监控 智能根因分析 智能故障自愈 智能故障预警 58集团网站简介 监控系统演进的几个阶段 监控自动化 监控系统可用、好用 监控立体化 监控覆盖面更全,采集到各维度更全面、更完整的数据 监控平台化 监控系统与其他运维自动化系统打通和联动 监控产品化 监控产品更贴近人的使用习惯,用户体验更好 监控智能化 让监控系统拥有更强的智能 传统监控与智能监控的差别 传统的监控 监控指标侧重单机运行状态 做固定阈值的异常判断 发出基本的告警,数量较大 做故障现象的告警,需

文档评论(0)

189****0801 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档