网站大量收购闲置独家精品文档,联系QQ:2885784924

(9)IT运维管理:ITIL先锋论坛—智能运维的算法和场景.docx

(9)IT运维管理:ITIL先锋论坛—智能运维的算法和场景.docx

  1. 1、本文档共78页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

智能运维分析领域中的算法研究和场景探索

GOPS

GOPS全球运维大会2020·深圳站

①AIOps背景和现状

CONTENTS目录

CONTENTS

目录

②研究工作

-日志/告警聚类

-日志/告警场景挖掘

-知识图谱和问答系统

③未来工作

GOPS全球运维大会2020·深圳站

01主题一

01

AIOps背景和现状

GOPS全球运维大会2020·深圳站

IT运维的现状一人少、事多

运维人员IT设备和数据

1:100(以往)

运维人员IT设备和数据

1:100n(现在/将来)

全新架构

全新架构

·基础架构:云化·应用:微服务化

·双态数据中心:传统架构+互联网架构

系统众多

系统众多

·门类多:日志+监控告警+性能指标+工单

·关系复杂:日志和告警、性能变化等

排障更难

排障更难

·依赖人的技能和经验·跨团队,责任界定困难

·企业对排障时效的要求更高

GOPS全球运维大会2020·深圳站

智能运维

智能运维,通俗的讲,是对规则的AI化,即将人工总结运维规则的过程变为自动学习的过程。具体而言,是对我们平时运维工作中长时间积累形成的自动化运维和监控等能力,将其规则配置部分,进行自学习的“去规则化”改造,最终达到终极目标:“由AI调度中枢管理的,质量、成本、效率三者兼顾的无人值守运维,力争所运营系统的综合收益最大化”。

出自《企业级AIOps实施建议白皮书》

手工定制的方式难以满足要求:

1.日益复杂的系统使得专家难以制定合理的、有效的规则2.快速迭代变化的软件使得规则需要不断的调整

GOPS

GOPS全球运维大会2020·深圳站

AIOps研究现状

成熟度

单指标异常检测容量预测

单指标异常检测

容量预测

KPI序列数据

多指标分析

日志聚类基于日志的异常检测

★★

★★★

匹配规则的自动生成

告警聚类/合并场景挖掘/匹配

告警聚类/合并

告警数据

故障根因分析

GOPS全球运维大会2020·深圳站

智能运维三要素

··算法的

··

算法的设计能力

数据个性化:参数调整的复杂性和反复性

AIOps

平台的工程化能力运维场景的理解能力·算法只是手段·

平台的

工程化能力

运维场景的

理解能力

·大规模运维数据的处理需要高效稳定的数据平台·数据平台和算法的高效结合

GOPS

GOPS全球运维大会2020·深圳站

智能运维三要素

算法的设计能力

··

需求个性化:针对客户的需求,需要设计针对性的算法

数据个性化:参数调整的复杂性和反复性

交易量

交易量

0.500.450.400.350.300.250.20

·算法只是手段·运维才是目标

运维场景的理解能力

AIOps

平台的

工程化能力

·大规模运维数据的处理需要高效稳定的数据平台·数据平台和算法的高效结合

GOPS全球运维大会2020·深圳站

智能运维三要素

算法的设计能力

·需求个性化:针对客户的需求,需要设计针对性的算法·数据个性化:参数调整的复杂性和反复性

··

算法只是手段运维才是目标

运维场景的理解能力

AIOps

平台的

工程化能力

·大规模运维数据的处理需要高效稳定的数据平台·数据平台和算法的高效结合

GOPS

GOPS全球运维大会2020·深圳站

02主题二

02

研究工作——1.日志/告警聚类

GOPS全球运维大会2020·深圳站

日志/告警聚类

称为日志/告警模板提取■大量应用的基础功能

·日志/告警压缩

·根因分析

·基于日志的日常检测

日志1:IP:0,Port:80-Connectionopen

日志2:IP:1,Port:22-Connectionopen

模板:IP:$(IP地址),Port:$(端口)-Connectionopen

告警1:通讯节点1(PSTD39_com1):在2019-01-1005:26:51时出现交易异常:超过367秒无交易上送

告警2:通讯节点2(PSTD37_com2):在2019-01-1005:49:41时出现交易异常:超过361秒无交易上送

模板:通讯节点$NUM(NODE):在$datetime

时出现交易异常:超过$NUM秒无交易上送

GOPS

GOPS全球运维大会2020·深圳站

挑战

■效率问题

·海量日志规模:大型IT系统每天产生日志数据超过1TB·长日志/告警:长度超过1000个字符

·模板多:上千个模板■

您可能关注的文档

文档评论(0)

ITIL先锋论坛 + 关注
实名认证
内容提供者

ITIL先锋论坛

1亿VIP精品文档

相关文档