复杂运维场景下,如何实现分钟级的故障根因定位.docxVIP

复杂运维场景下,如何实现分钟级的故障根因定位.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
PAGE 1 PAGE 1 复杂运维场景下,如何实现分钟级的故障根因定位 在超级互联网公司,随着服务器规模都早早迈过10万台量级,加之业务模式的多样性和IT架构的云化迁移,其IT运维团队面临的挑战与日俱增,常规的系统和经验都需要不断迭代更新。本文介绍在超级互联网公司如何基于网络的故障根因自动定位技术,提高故障定位速度,从而提高业务可用性。 在超级互联网公司,随着服务器规模都早早迈过10万台量级,加之业务模式的多样性和IT架构的云化迁移,其IT运维团队面临的挑战与日俱增,常规的系统和经验都需要不断迭代更新。 本文将给大家介绍在超级互联网公司如何基于网络的故障根因自动定位技术,提高故障定位速度,从而提高业务可用性。 规模效应和云的效应极大提升了运维的复杂性 首先,我们先来看看超级互联网公司的业务架构示例图: 图1超级互联网公司的业务架构示例图 在超级互联网公司中,通常不同的层次都由不同的团队来负责运维管理,同层次不同的硬件/系统/应用都由不同的小组来负责运维管理。 就基础设施即服务这层来说,随着IT设备规模的不断增加,IT设备故障的告警种类与告警数量也随之急剧增加。 告警的多面性、冗余性、耦合性,导致某些核心层面的故障会引起大面积告警的现象,而这些告警又有可能分属不同小组,运维人员处理故障会增加排查问题的难度以及增加小组间沟通成本。 同时因为对故障信息缺乏统一的管理,无法对告警系统进行反馈优化,致使误报漏报频出。同样也无法进行全面的故障信息统计分析,不知道如何对基础设施资源进行风险管理。 众所周知,IT基础设施层的运维工作,直接影响公司服务稳定性。一次服务中断事件便会对公司造成极大的经济损失。 但正如上述现状描述中提到的问题: 运维平台繁杂多样, 运维小组之间沟通滞后, 告警信息共享程度低, 工程师水平参差不齐,故障处理自动化程度较低。 告警系统缺乏有效的反馈机制进行系统优化,同时缺少全面有效的故障信息沉淀,无法帮助预算与评估选购系统进行合理选购。 这些都极大约束了运维水平的与时俱进,新的方法论和新的运维技术有迫切的内部需求。 我们收敛汇总一下复杂运维场景下的主要痛点: 如何在告警风暴时压缩告警 如何快速从大量告警中找到故障根源 如何提高不同运维小组的故障处理协作效率 如何实现对IT基础设施的风险管理 如何应对?打造以故障定位为核心的运维生态体系! 基于上述背景下的痛点问题,一套以故障定位为核心的运维生态体系的建立便成为高逼格的不可或缺: 统一故障信息入口,使用机器学习的算法对信息进行分类整合和推理,自动定位故障生成case,设计开发统一故障处理平台,通知工程师来平台进行处理故障。 同时将全部数据进行沉淀分析,反馈给告警系统和质量管理系统,提高故障处理效率,加强基础设施风险管理。 而在这套生态体系中,故障自动定位技术便是体系是否能够成功建立的核心要素。 图2自动定位技术便是体系是否能够成功建立的核心要素 故障根因自动定位简要科普 故障根因自动定位系统为人工智能的分支,属于诊断性专家系统,专家系统通常包含: 人机交互界面 学问库 推理机 解释器 综合数据库 学问获取 其中最重要的是学问库和推理机。学问库用于专家经验的存储,是一种静态规则,推理机依据现象结合学问库中的规则反复推理得出结论。规则集的组成形式有多种方式,本文重点介绍的是二叉决策树。 图3人工智能诊断型专家系统 故障根因定位系统的设计架构系统 故障根因自动定位系统主要由监控系统、接入系统、推理系统、通告系统四个部分组成,分别的功能如下: 监控系统:监控系统负责各类探针数据的采集,依据监控规则产生告警。 接入系统:接入系统负责对各类监控系统的告警信息进行汇总并格式化处理。 推理系统:推理系统依据专家推理树进行故障根因定位推理,定位最终告警原因,确定故障根源。 通告系统:通告系统依据定位出的故障根因进行故障信息通告。 看个实际案例,看看究竟能解决啥问题? 故障推理算法是整个故障定位系统的核心,这里重点阐述下故障推理算法的实现方式。 故障定位算法采用机器学习中的二叉决策树的方式实现: 一方面期望将故障所产生的全部告警信息整合为一条信息,削减告警量。 另一方面期望能够智能定位出故障

文档评论(0)

185****8664 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档