AIOps运维大脑建设实践.pdf

  1. 1、本文档共28页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
AIOps 运维大脑建设实践 1 我们生活在一个数字化的社会中,而运维则是这个数字社会的一个基础设施级别的技术。运 维做得不好,各行各业,无论是金融、电信、能源、工业制造、互联网、物联网,都不能高 效、稳定、可靠地运转。既然运维这么重要,为什么还常出现各种各样的、甚至影响非常大 的故障呢? 本质原因是我们现在遇到了一个非常大的矛盾。这个矛盾就是当前运维所大量依赖的人力决 策已经无法应对当前运维所面临的挑战。 2 随着互联网、 移动互联网迅猛发展, 用户越来越挑剔、 对应用软件的用户体验要求越来越高。 而我们知道,应用软件都是建立在一个庞大、复杂、跨协议层的大型分布式系统之上的。 这个分布式系统的技术、 软件、 配置通常会不断快速地演变; 其软硬件难以避免会发生故障、 Bug 、变更;用户流量会发生不可预知的变化,甚至会发生安全攻击事件,而上述趋势有愈 演愈烈之势。 尽管各类运维监控工具使系统运行状态的可见度有较大提升,但是当遇到运维故障时,面对 海量监控数据和庞大负责分布式系统,仍依赖运维人员在高压下人力做出迅速、准确的运维 决策,这显然是不现实的。 也即是说人力运维决策已经无法应对当前的运维挑战。这导致运维人员的工作生活可以说是 处于水深火热之中,“人少、事多,救火、背锅”, 7*24 小时时刻准备救火。有运维人员自 己做的打油诗为证: 3 我们解决上述核心矛盾的思路,就是逐渐减少人力在运维决策中所占的比例,逐渐增加人工 智能在运维决策中的比例,最终实现无人运维: 这就像交通工具所经历的变革一样: 起初交通工具要靠人力驱动,之后能够做到自动驱动,但还需要大量的人力决策(每公里驾 驶需要人力决策 100 次以上),最终我们希望能够做到无人驾驶——你坐在车上面,车自动 带你去目的地。 4 运维已经从最早的人力运维发展到了一定程度上的自动化运维(但还是需要大量人力盯屏决 策),最终我们希望基于人工智能的运维工具能够更多自主决策,只需很少人力、甚至不再 需要人力参与决策。 这就是我们运维行业的长远目标:基于 AIOps 的无人运维。 无人运维是目标, AIOps (AI for IT Operations )是工具、是手段。目标不可能一蹴而就, 需要我们一步步脚踏实地、不断探索去实现。因此我们必须有一种客观的、量化的手段能够 对无人运维(或智能运维)水平进行度量。 下面提出的无人运维量化评级方法,不包含主观因素、不需要人主观打分。按照这种方法, 每个单位都可以与其它单位及自己以往进行客观地比较,有效衡量本单位无人运维(或智能 运维)在行业内的相对水平及自身进展。 一、 无人运维评级 如前所述,我们希望能够量化、综合评估运维的生产力。因此,在设计具体指标的时候,我 们考虑了如下因素: 直观来讲,为了达到同等的稳定性、可靠性 SLA ,依赖人力决策越多,其无人运维评级水平 就相对低一些。 5 希望这个评估指标能够与以下因素脱钩:行业、业务类型、业务规模、架构、技术、加班程 度、外包情况等。 运维人力应计入负责运维服务器、存储、网络、中间件、数据库、应用的所有人力。 运维人力计入人力查看监控数据、排除故障、运维规划,盯屏幕、值班闲置的事件,但是不 计入运维人员用于开发运维工具的时间。 基于上述考虑,我们提出的指标是 Cores per Op (CPO) ,即每个运维人员 OP (每周平均工 作

您可能关注的文档

文档评论(0)

147****2695 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档