大型数据中心运维管理,计通解决方案.docx

大型数据中心运维管理,计通解决方案.docx

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大型数据中心运维管理 ,计通解决方案。 4 当一个数据中心的范围规模日渐扩大, 面临的问题和挑战就 要比原来的小环境小体系大很多 很多,在很多小的环境和体系下不是问题的问题在这样的范 围规模下会暴露的很明显,想要 做好大型数据中心的运维工作, 必须对整个数据中心技术体 系有过深度的系统学习,并且需 要花费很长的学习时间。只有对这个数据中心整体非常了 解,才能有针对性地制定一些运维 方案,甚至可以二次开发一些监控运维软件, 对整个数据中 心进行有效管理与监控,提升整 个数据中心的运行效率、 减少故障的发生, 从而将运维工作 推向新的高度。 一个大型的数据中心内部往往都包含了很多小系统, 运维工 作都是围绕着这些具体的应 用系统展开的,具体的可以分为基础运维管理、网络、日常 业务运维、服务器、安全、存储 六大部分,本文就来说一说一般大型的数据中心应该具备的 哪些运维方法和能力。 、数据中心日常业务运维 从数据中心的日常业务运维方面考虑, 则主要有资源、 机器 分配、资源使用、网络吞吐、故障恢复、备份应用,集群搭建、 流量,压力,迁移扩容,升级、上下级业务关联情况、资 源利用率、异常处理、应急预案等等。 这些日常运维工作实际上要花费大量的人力和时间, 是运维 工作的主体,也最烦琐,但 却最不能体现业绩的部分。 一个数据中心能够长久安全稳定运行, 就是靠这些日常的工 作积累,只有平时注意这些 细微的变化,才能不断优化。压力测试、软件升级、业务部 署、异常处理等几乎成为了运维 工作的日常必修课, 只有将这些工作做好, 才能避免出现大 的故障, 并能够快速部署新的业务, 根据资源使用情况及时扩容 设备。 二、数据中心网络 从数据中心网络方面考虑,则主要有网络硬件设备、 ACL 、 OSPF、LACP、VIP、流量、负载均衡、二三四七层情况、网络 监控、万兆板卡、核心交换等。 网络是数据中心的重要组成部分, 是一切工作运行的基本保 证,没有网络数据中心就无 法运转起来, 所以保证网络稳定是数据中心运维工作中的重 中之重。 这里主要关注的就是网络的硬件问题, ACL 部署还有流量 监控情况。网络可以说是包罗 万象,涉及太多的设备和协议技术, 所以也需要不断地学习, 加深对网络技术的理解,这样 才能做好网络运维工作。 三、数据中心基础运维管理 首先从数据中心的基础运维管理方面来说, 则主要有硬件配 置管理、可维护性优化、监控、报警处理、自动化运维、断网, 断电、机房容灾等运维工作。 硬件配置管理包含机柜里每台服务器的型号和硬件配置, 并 清楚是哪些业务系统在使用 这些服务器。 即便是虚拟化运行环境, 也需要知道这些虚机 都在哪些物理机组成的资源池中 流动。 数据中心物理机和虚机数量都很庞大, 使用自动化运维是非 常有必要的。自动化运维不 仅能提升运维的工作效率, 还可以减少人为的参与, 同时让 数据中心自己管理自己, 释放人力, 并对数据中心可能发生的故 障还做好监控与报警处理,以便能够在故障发生的第一时间 知晓问题。往往一次大的故障都是从开始的一点小故障逐渐 扩展最终引发整个大系统的崩溃的, 所以在出现一些小的异常时 一定要及时消除,而这些异常就要靠完善的监控和报警系统 来检测。 四、数据中心服务器 从数据中心服务器方面考虑, 则主要有文件系统、 内核参数 调优、各种硬盘驱动、内核 版本、 Kernel panic 等。 Linux 系统不仅在服务器,在网络操作系统也占据着主流地 位,掌握 Linux 系统的使用才能更好地处理服务器和网络设备的 运维工作, Linux 是运维工作的一项基本技能。 除了熟悉 Linux 系统的操作, 还要对服务器的运行状态和内 核运行状态进行监控与管理, 减少服务器故障的发生。 一般大型 的数据中心都包含有成千上万台的服务器,几乎每天都会 有服务器出现各种各样的问题, 只有对服务器有深入理解才 能很好地消除问题。为了防止服 务器故障引发业务中断, 所以一般在服务器上都要部署虚拟 化技术或者集群技术,当一台服 务器物理硬件故障时,业务可以平滑切换到其它服务器上, 业务不会受到任何影响。这些虚 拟化技术增加了运维的难度, 也需要对虚拟化技术进行不断 深入学习。 五、数据中心安全 最后从数据中心安全方面来考虑, 安全就是十几个小项: 攻 击保护、升级备份、抓 BUG/找BUG、脚本工具、数据安全、服务巡检等项目其 中每一项拿出来其实都包含很多 的内容。 比如说到攻击与保护, 这个主要指的是防止外来的异常入侵 者对数据中心发起的恶意和 无意攻击, 恶意攻击就是有人故意的使用各种攻击方法, 进 入到数据中心内部,将重要的数 据窃取或者破坏,达到其不可告人的目的。 也有的是无意的攻击, 因为整个数据中心是要与外界保持互 联

文档评论(0)

xiaozu + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档