阿里巴巴运维标准体系变迁史.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
阿里巴巴运维体系变迁史 作者丨毕玄 编辑|谢然 每家企业对于所谓运维团体到底应该做些什么,全部有各自见解。本文首先由阿里巴巴运维团体在整个阿里巴巴业务里负担责任为切入点,回顾了阿里巴巴从工具化到自动化过程,接着分享了阿里巴巴在智能化领域探索路线,最终总结了未来运维团体所面临巨大挑战,尤其是运维智能化落地,有效性提升,和最终效率提升及成本节省上带来挑战。 注:本文首发自 InfoQ 运维公众号,高效开发运维,ID:DevOpsGeek,推荐关注。伴随大数据、机器学习和 AI 技术飞速发展,智能化运维成为运维热点领域。Gartner 汇报宣称,到 年,快要 50% 企业将会在她们业务和 IT 运维方面采取 AIOps,远远高于今天 10%。尽管 AIOps 还是一个新名词,但它无疑代表了运维未来一个趋势。智能化运维终极目标,就是将运维人员从繁琐工作中解放出来,提升整体运维效率,降低运维成本,实现业务系统高可用性。运维环境异构和复杂化,造成日常运维工作需要付出人力、时间成本越来越高。 大约两年前,智能化运维开始被大家广泛关注,伴随大数据分析、APM、智能异常检测、机器学习等技术兴起和逐步成熟,运维需求也逐步向自动化和智能化过渡。从最初级运维发展到现在智能化运维,大致经历了四个阶段:脚本时代——工具时代——自动化时代——智能化时代。现在业界真正智能化运维落地实践其实并不多,大多还是停留在自动化甚至人工化阶段,然而智能化运维是大势所趋,对于大企业来说,更是尤为关键。以下整理自 上海 CNUTCon 全球运维技术大会上,阿里巴巴研发效能团体责任人,阿里研究员毕玄演讲《智能时代新运维》。 1 阿里运维体系承载着怎样责任? 阿里运维体系介绍 阿里运维团体,关键覆盖五个层面。 一.资源计划和支付是运维基石 整个运维团体需要负责资源计划、资源交付。Quota 管理: 比如我们会跟业务团体做部分预算管理,对于每个业务团体首先需要有预算。只要你有预算,运维团体一定会把资源交给你,没有预算一切免谈。计划: 比如阿里每十二个月双十一交易,业务团体要给出下十二个月交易额将做到多少,至于背后需要增加多少机器量,业务团体根本不关心。所以需要运维团体来做从业务需求到资源转化和计划,这对于企业来讲很关键,因为意味着最终我在基础设施上要投多少钱,还有节奏控制。采购: 当规模大了以后,怎么样合理计划资源数量和交付节奏是很关键,比如 5 月份采购这批机器和 6 月份采购这批机器,是完全不一样概念。还需要资源采购,比如 SSD 采购担心,供给量不够。通常大企业会有更多渠道取得愈加好供给量,小企业就会很困难。怎么做好供给链控制是很关键。资源调度: 对于资源团体来讲,调度也很关键,我们交出去机器是怎么样交法,怎么确保可用性、稳定性, Bootstrap 等,每个业务全部有自己计划,根据业务需求怎么把整个业务环境全部交给业务方。阿里现在就碰到了很大挑战,比如在国际化扩张上,我们可能这个月需要在这里建个点,下个月需要在另一个地方建个点,怎么快速完成整个资源,不仅仅是机器资源交付,还有软件资源交付,是很关键。我们现在在扩展东南亚业务,怎么样在东南亚快速完成整个软件资源交付,对于我们竞争是很关键。 二.变更 是运维不可避开坑 对于运维团体来讲,变更也是常常要做部分,变更信息收拢,做应用层面变更,基础网络 IDC 等等。 三.监控 估计潜在故障 监控对于阿里来讲关键分为基础、业务、链路,在监控基础上要去做部分报警等。 四.稳定性 是不少企业追求目标 稳定性这个概念我们以前认为针正确是大企业,因为它可能会影响到大众生活,会比较敏感。不过现在新型互联网企业,如外卖,ofo、摩拜等,它稳定性要求比以前很多创业型企业更高,因为它有在那个点必需能用,假如不能用,对用户会有直接影响。所以稳定性可能在整个运维行业会得到越来越高重视,不过对于很多中小型企业,稳定性投入相当大。 五.一键建站 让规模化有力保障 像阿里在稳定性上关键会去做多活体系建设,然后故障修复、故障定位,然后还有一套全链路压测。规模化是很多运维团体很痛苦事情,可能今年机器在这个机房,明年你基础设施团体可能告诉你,这个机房不够用了,我们要换个机房。反正在阿里巴巴,很多运维人员全部说了,我们每十二个月工作中有一项不用写工作就是搬迁。即使基础设施团体会承诺说三年内不会再搬,可是到了明年她会跟你说,因为一些原因我们还是再搬一下,搬完以后三年不会让你再搬。不过从我们过去发展三年,每十二个月全部在搬。未来我们确实相信阿里巴巴,可能在未来搬迁会相对更少一点,我们认为不能让搬迁成为阿里巴巴运维团体关键竞争力。我们在规模化层面做了很多事情,比如说我们做了一键建站,对于阿里来讲,我们对机器资源交付时间,要求会越来越高。比如说双十一,是

文档评论(0)

159****1748 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档