2020年全球运维大会-立体化监控中人工智能场景落地.pptx

2020年全球运维大会-立体化监控中人工智能场景落地.pptx

  1. 1、本文档共25页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

立体化监控中人工智能场景落地

目录

自我介绍

1

痛点和现状

2

实践之路

3

场景落地

4

思考和展望

5

没有核心的痛点以及真实的需求

需求

缺乏真正会AI的人才以及配套设施

资源

体系内没有对AI正确的规划以及技术体系

规划

为什么不做和做不了AI?

结合特定场(痛)景(点),通过海量数据的持续学习及算法优化,解决复杂问题得到更优决策创造价值。

本质

难点

普遍的监控述求

准确率、覆盖率、及时性需要亟待提高

告警

告警风暴、根因定位、及时止损提升诊断效率

故障诊断

应用画像

重要性识别、容量规划、健康报告

需求

设备很贵且用且珍惜

1、投入和产出是否匹配

2、不被收割智商税

机器资源

大神资源

招人成本高,人才竞争激烈

技术门槛高

大神很贵

工程与算法分离

算法理解,结合工程

大神很挑

墨菲定律

目录

自我介绍

1

痛点和现状

2

实践之路

3

场景落地

4

思考和展望

5

微观和宏观场景结合

点面结合

细分维度的场景

用户反馈

网络切换

应用画像

基础维度场景

告警基线

线上用户反馈发现故障并进行预警

用户反馈

基础组件收敛告警

告警基线

根据网络故障时进行自动切换

网络监控

为啥能成功?

场景可以简单抽象,关联数据项并不多,长期有人肉操作

成功组

预期

结果

预期:通过对应用进行容量画像的计算,推动大促扩缩容工作快速开展

结果:数据沉淀以及打通不够导致模型普适性有较大问题

1、根据历年数据,人工进行预估,预估不足时多次压测,多次扩容,导致研发、测试、运维人力投入增加

2、基于单一维度计算,简单的判断当前应用维度容量的使用情况

1、应用场景过于细化,模型普适性低,如:内存密集型,cpu密集型,带宽密集型等。

2、临界值压测工具有所欠缺,底层数据沉淀不够

关于数据格式化以及底层工具支持度任重道远

失败组

目录

自我介绍

1

痛点和现状

2

实践之路

3

场景落地

4

思考和展望

5

场景

由于整点秒杀、抢购业务特点,核心系统指标数据存在毛刺,不确定因素多,噪声较大

数据

基于历史数据,做加权平均计算,可的出得出相对准确的未来预测值,包括日常峰值毛刺和低谷值

根据准确的预测值,设置较低的阈值,可以敏感的发现各类问题

策略

网络探测数据,客户端图片异常数据与订单,登录分运营商数据进行多重比对共享告警阈

值设定方案,对敏感网络较差地区网络告警进行有效收敛

效果

因为多地不同网络探测告警的特殊性,误告频繁,联合告警后网络告警误告率降低了80%

图片CDN异常与网络一样有多地多维度特性,与核心指标关联后降低了90%的误告率

基础告警组件:基线预测

32个省*3大运营商+中小运营商+海外,质量各不同

京东覆盖多地多机房的接入点

运营商交割太磨人

切换效率低下,场景固定

网络监控:背景

客户端测用户主动进行网络探测

充分的数据准备

各机房agent反向拨测用户ip

客户端网络组件图片组件侧的异常日志

地区机房运营商核心参考指标

主动拨测

异常日志

被动拨测

核心关联指标

网络监控:数据沉淀

全手动

根据采集的数据判断是否需要进

行切换

半自动

提供移动端的切换建议工具,辅助

进行快速切换

全自动

根据切换场景进行全自动切换算

法落地,进行切换中,切换后的争取度回调

网络监控:智能调度

电信

联通

移动

智能调度

基于长期稳定的数据,从自助化到自动化再到智能化

用户反馈:背景目标

目标

AI分类算法,提升分类告警的准确度;不断细化告警的场景,达到相似问题匹配聚合并聚类告警;

增加反馈情绪分析服务,积累情绪分析数据;增加新的反馈算法以及探索新类目自动识别判断功能,提炼技术通用模板或共性,扩展应用到更多的场景中,在技术积累的基础上有更多的创新及技术突破。

人工分类效率低

近一年多的反馈数据目前尚处于人工分类状态,效率较低。

分类准确度低

用户反馈前,原分类器模型分类准确度低、告警准确度低。

分类依赖人工标注

分类完全依赖人工分类和标注,费时费力。

分类告警粒度较粗

同类问题,无法统一、集中告警,出现漏报现象。

问题跟进参考维度单一

问题跟进方面较单一,无法覆盖更多应用场景。

新类目无法自动识别判断

对于新增的类目,需要研发后台手工添加,并且需要重新训练新分类模型。

各渠道端数万条用户反馈人工打标的数据作为数据样本,主要采用了KNN,naïvebayes,randomforest,logisticregression

等分类算法进行学习分析尝试,并逐步通过

加大学习样本的方式,使用户反馈分类匹配更为精准,逐步减少人为打标工作量

用户反馈分类有具体的二级三级层级关系,通过几十万的历史样本数据对

文档评论(0)

iris + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档