IDC运维可视化分析.docx

  1. 1、本文档共14页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
IDC运维可视化分析

IDC运维可视化前言近两年,互联网相关产业发展非常迅速,互联网业务发展也是非常快。业务的增长也对数据中心IT设备需求量也急剧增加。数据中心的运维和设备的运维是一件非常烦琐的事情,需要工程师进行大量手工工作。在快速扩张的过程中也遇到了诸多问题,我们在这方面做了很多的努力,本文将会就这一主题与大家分享的一些经验。一、IDC发展过程业务近几年发展迅猛,四年前的设备量、IT设施相关设备不多,直到四年前在移动端、方案端开始发力,业务拓展非常迅速,对设备增加的需求也日趋迫切。 现在整个的设备规模是以万来统计。设备增加,数据中心Rack的需求势必增加。的Rack已经达到以千来统计的规模。对于IDC来说,机会的增加不可能把所有的业务放在同一个IDC,的IDC从最初的一个主要数据中心,迅速增加到两个、三个,我们数据中心之间也进行了这样的一个互联。的IDC建设经历了一下几个阶段:第一阶段: 自建IDC为主。从2000年开始,自建IDC,但自建IDC存在不少问题:投入大、建设周期长:因为要拿IDC、要审批,要申请电力资源,因为IDC是一个高耗电项目。然后再建楼,建设备…,一般来说,一个IDC的建设周期需要2—3年,这还是速度比较快的,有的需要五、六年。可扩展能力受限制: IDC建设初期的需求是预估的,随着业务的扩展,对IDC的规模要求也就逐渐增加,需要进行弹性扩展。第二阶段: 自建自有 + 供应商IDC现代互联网要行业要求轻资产,花重资建IDC已经不适应市场规律,所以在业务快速发展过程中,在自建自有IDC的同时,也向供应商或者是运营商借用他们已经建好的数据中心。但租用IDC存在各种不同于自建IDC的管理差异:机房情况不能及时获取,包括机房的一些UTS的监控,温度、湿度的监控都在g供应商的管理之下。而且一般运营商监控的系统是不对外开放和对接的。监控粒度粗,供应商的监控相对来说粗一些。他们只对某一个通道和角度,或者是某一个机柜、机组传感器进行监管。响应实效差,当出现故障和问题时,响应速度慢,他对你设备不了解,你对他环境不了解等,在协作方面也会有信息的不通畅。我们在做数据中心时遇到的这些问题需要解决,但我们不能通过无限制的增加人力来应对数据中心快速扩张,运维人员做的事情太基础对运维的效率、对运维工程师的发展都存在很大的弊端。如何以有限的人力资源去应对快速增长的数据中心的运维?如何实现运维的精细化管理?我们怎样努力地花好每一分钱,怎样高效地响应运维的需求?针对以上的目标,我们提出了一个IDC管理可视化的想法。二、IDC管理可视化数据中心快速发展,我们也碰到了很多解决亟待解决的问题。举个例子来说,如何快速知悉数据中心空间使用情况?已经存在多少设备设备都在哪些机柜有多少个机柜还能放多少机柜与哪些网络设备连接在传统的方式里面,可能你要去拿一个一个去拉,或者一单个字母为索引来查询一个数据记录系统,如此,根本没办法地直观地看到数据中心的情况。再看一个例子,如果机房出现了故障,我如何能够有效、及时地去评估这个故障对我的影响?按照以前的方式我会打电话问我的供应商,你机房是不是出问题了?你是哪个空调、风机出问题了?还是UPS掉电了,影响多少个机柜,我怎么知道这些机柜有哪些网络服务器、设备,我要不要做优化、做流程?所以我们希望有一个系统或平台可以直接看到我们IDC的一些情况:机房空间使用情况机房供电情况机房环境温度机柜的布局展示,设备信息,硬件状态设备警报处理知道了这些指标,设备一旦掉线,就很容易被发现。并且,可以大大提升运维工程师的工作效率。基于这些指标要求我们做了IDC可视化系统 ,如上图所示。查看IDC状态告警,系统中可以查看机房的温度范围,查看每个机柜的温度范围。后面我们还可以看到它设备定点产生的问题,比如说这个是不是A路电或者是B路电掉了。可以查看整个机房的布局,整个机房功能的安排,比如:机房通道,机柜位置,及其功能标识(是存储类、还是网络类或其他功能)。还可以查看机柜供电、网络设备布局,以及整个机柜里面某一个设备的状态情况以及这个机柜的温度、功耗的历史情况。在这个基础上,我们还对IDC运维工程师经常要做的工作进行了可视化。如上图所示,我们可以对设备进基于行各种参数的查询:可以查看某个机房里面某些设备的情况。也可以对单台设备进行操纵并可以查询基本情况,可以看到子系统的状态,比如CPU、硬盘指标。也可以看到这个设备曾经做过的历史的操作,比如说变更,比如说一些不良的数据。更能看到一些设备内部子系统的详情,比如当有设备报警发生,典型的类似于ECC交元错误,在可视化系统中可以直接看到它的内存、容量等指标,这样在保修的时候,就有针对性,不让厂商的工程师二次上门服务;可以看到设备历史的日志、状态,比如:功耗变化、温度变化。可以通过可视化界面对设备进行硬重启。同时也提供了一些标

文档评论(0)

wbjsn + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档