日志易AIOps实践:日志数据大有用途.docxVIP

日志易AIOps实践:日志数据大有用途.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
日志易AIOps实践:日志数据大有用途 AIOps是在DevOps的基础上做的进一步的优化和提升。DevOps要关注自动化,有监控规章。比如我们原先的监控系统有时候有二三十万个告警项,不行能给这么高频度的告警挨个看,这时候就需要AI来做这个事情。 对于运维来说,运维对AI的需求就是处理工作中最耗时的那部分。 运维工作中一个大的部分是监控,如何去完成一个高效的监控系统,需要对本人的系统了如指掌,把监控项分布在很细的地方,包括怎样设定阈值,这是很麻烦的事情,我们可以通过AI去完成这个事情。 另外一大块就是告警和毛病定位。运维团队除了要处理当前的问题,也有长期目标,比如年度或者半年度的KPI,保证网站或系统的功能。要优化功能点,可能要不断地猜想尝试,两头会有很大的时间成本。这种尝试过程就可以通过AI算法去提高优化,在尽量短的时间内达到原先要花很长时间的效果。所以AI对于运维团队来说,最大的目的就是在运维工作里去缩短时间,运维真刚要做的事情还是那些事情。 AIOps次要运用哪些AI技术 由于运维是在整个IT技术里面算比较新的领域,不像网络、平安等领域有一些大家公认的数据集。就算是在企业内部也不肯定可以做好数据标注。所以AIOps面临的问题就是我们没有比较好的可以做监督学习的样本。 因而在做AIOps的过程中,不管是在监控目标领域,还是在日志分析领域,目前运用AI技术最简约的方式就是用到一些非监督学习的算法,比如聚类算法(Cluster analysis,亦称为群集分析,把相像的对象通过静态分类的方法分成不同的组别或者更多的子集(subset),这样让在同一个子集中的成员对象都有相像的一些属性,常见的包括在坐标系中愈加短的空间距离等)。 现在的AIOps用法最常见的就是在排障过程中,怎样从海量日志里找到本人关怀的点,比如有的客户选购了一些PaaS和IaaS平台的系统,这种系统都很简单,每一个云系统里面可能都是好几十个不同的组件,每个组件之间各自有各自的日志输出。由于不同组件的格式完全不一样,我们把它采集到一起,对日志进行聚类模式学习的算法,进行快速排查,这时候需要看的信息量就格外小,定位问题的MTTI也很短。 另外一些地方会更进一步,把聚类和模式发觉算法用到告警方面,去做告警的推断。比如有的日志类型之前从没见过,像对于外采的设备,我们晓得正常情况下这种日志应当是不会消灭的,所以只需这种日志输出,就证明当时肯定有问题。这时候去关注信息优化,或者对这种极端情况做优化,这样运维人员就能提前意料到某一类这样的问题。 日志对运维工作的价值 日志对运维工作的价值次要体现在两个方面: 外采设备或系统的运维:有些用户的运维业务和系统里并不是全部的东西都是本人研发人员写的代码,会有很多外采的设备或系统,不是一有问题本人的研发就能搞定。对于常见的硬件设备,包括开源社区的一些两头件,日志是最能直接反应出当前运转形态的数据。在拿到日志的时候,常见一些关键字比如warning, error,critical等,可能很简约拿得到了,有些到了info级别,也能反应出比较少见或者我们平常不太留意的的情况,这样也可以发觉很多潜在的问题; 排障:排障关注的不是每一个设备怎样样。在正常的运维系统中,我们最关怀底层业务怎样样;但是在排障的时候,拿到一个总的告警是没有用的,要深化到底层,由于底层有很多不同的模块和系统。在排障过程中,单独排某一条线,作用不大,我们可以把不同平台的日志拿来做快速查询。但是假如对查询结果一个个去尝试,时间成本格外大,除非能把路径固定下来,有一些学问库告知你消灭这类问题就肯定这么处理,这是少见的情况。另一个处理方案是,把数据搜集到一起,通过搜索引擎来过滤,快速拿到结果。再下一步通过AI算法,把这些结果总结分类成少数的几种模式,这样可能原来几千万行日志最终变成20几条结果,就可以节省很多时间。 日志易的统一管理平台 日志易作为一个日志管理平台,次要处理以下几个问题: 首先是怎样把各种来源的数据收集起来,同时做好格式化和结构化,由于不管是统计分析还是机器学习,只要结构化了的数据才能用。我们在采集端和结构化端这块有比较大的成本投入,供应了很多具体的解析方式。同时我们也内置了上百种常见的基础设备和两头件,包括一些通用业务系统的解析规章,部署上去之后就可以直接用,让接入的数据能尽快地去做统计分析和样本学习。 另外在做统计分析这块的时候,每一家的统计需求可能完全不一样,假如对每一个分析需求都写本人的分析程序,只需业务变更了,这个分析程序就失效了。对此我们做了一个接口层,叫做SPL,Search Processing Language,它是一个类似SQL的东西,但是会像运维人员更生疏的shell语法,可以把要现写的程序变成写shell命令一样。这样对每个不同的需求,

文档评论(0)

duanbingbing + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档