虚拟机日常维护手册.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

虚拟机平常维护手册

1目的

为提高解决虚拟化服务器故障的能力,形成科学、有效、反映迅速的平常管理流程和应急解决机制,保证虚拟化平台的安全和稳定运营,最大限度地减小服务器故障对生产的影响,减少业务中断风险,特制定本手册。

2故障解决规范

2.1硬件维护

平台服务器出现硬件告警需要停机维护,服务器负责人应立即告知相关人员,将业务虚机迁移到集群中其他服务器主机上,再将故障服务器切换至维护模式并从HA集群中移除,负责陪同硬件厂家现场更换至成功恢复。

2.2虚拟化平台故障

发生平台故障后,相关人员应及时查找、拟定故障因素,进行先期处置。若故障在短时间内无法修复,相关人员应将业务迁移到备用平台环境中,保持业务系统的正常运营;将故障服务器脱离网络,进行故障排除工作,并及时联系相关人员或厂商协助解决。

2.3虚拟机软件系统故障

(1)平常做好虚拟机的定期备份和快照,系统崩溃后,应可以及时恢复虚拟机。

(2)发生虚拟机系统故障后,相关人员应及时告知业务人员检查出现故障的因素并尽快排除。

(3)如遇虚拟机系统需要启用备份系统进行恢复时,应在恢复后和业务管理员仔细检查业务是否恢复并做好恢复记录。

2.4虚拟化平台平常告警故障排除

当虚拟化平台出现告警信息,通过以下环节排除:

拟定故障因素。查看已触发的警报内容,拟定故障前操作是否是引发该故障的因素,对合规操作引起的告警,进行消除。

对提醒硬件产生的告警,应查看硬件状态信息,对确认是硬件的问题按硬件维护预案解决。

对提醒因资源局限性或性能引发的告警,因查看近期性能图表,找出因素,消除故障提醒。

对于无法判断的故障,可导出系统日记发给厂家分析解决

3虚拟化平台故障防止

3.1虚拟机实时状态备份

在对虚拟机进行调整配制前,做快照,以防配置虚拟机后出现故障,如无问题,可删除虚拟机快照,此外也可运用快照最为一种备份的方式,定期做虚拟机快照,当出现问题时,可恢复到最近的快照状态。

6虚拟化平台故障恢复

虚拟化平台系统出现故障,先对问题进行定位,按前述预案解决,若故障仍然存在,通过以下环节恢复:

(1)用快照进行虚拟机恢复。假如虚拟机中涉及数据库和实时状态信息,要在恢复后进行必要的数据库文献恢复,并还原系统实时状态。

(2)用NBU从备份系统中进行系统还原,还原后进行必要的状态信息检查

(3)虚拟化操作系统恢复,通过重新安装虚拟化操作系统—vsphere还原底层平台,并重新部署到群集系统中。

摘要:

有时,VMware管理员如走过场同样执行平常维护任务。他们做X、检查Y然后把把Z的脉搏。但是很重要的一点是要弄明白这么做的目的。

维护工作不仅仅是要维持系统在线,它同样保证您可以从现有投资中获得最大收益。虽然ESX、vSphere、vCenter和Workstation都是成熟和稳定的虚拟化技术,但是它们仍然需要进行平常维护。

花费一些时间去了解您的架构,然后制定VMware维护计划以满足您的SLA(servicelevelagreement)级别并尽量减少工作压力。下面的纲要中包含了一些最佳实践,但是每个虚拟化架构各有不同,您需要选择最适合的方式。

VMware维护工作根据频率可以大体分解为:天天、每周和每月。

VMware平常维护工作

我天天要进行的维护工作如下:

查看报警邮件。邮箱监控是一种连续的、被动的、并且一旦对的设立后不需花费很多精力的监控方式。当您逐渐熟悉系统架构后,还可以区分出警报的不同类型,辨认哪些是紧急的需要立即解决,哪些是需要逐步去改变的。

假设某个特定的数据库在天天的固定期间发送CPU占用率过高的警报,那么最佳调节一下报警设立的条件和频率。不要忘了《狼来了》的故事,避免由于过多无关紧要的警报而忽略了那些关键问题。

巡视服务器所在的房间。虽然我也设立了警报,但通过对主机所在的房间进行一次快速的巡视我可以立即判断出发生了什么,这非常有用,特别是忽略了某个警报的时候可以补救。

所有的风扇都在运营吗?是否出现内存差错?SAN系统中的磁盘驱动器正常吗?通过观测硬件上的指示灯我可以获得基本的状态信息。我还会快速检查一下不间断电源的供电电压,以及现在的运营时间。知道了这些,一旦发生劫难,我可以知道有多少时间可用来关闭设备。除了这些快速观测外,我还经常使用HP公司在宿主机上集成的Lights-Out端口来检测硬件状态和温度,特别在没有物理登陆宿主机或SAN的时候,这么做非常有必要。

环视一圈vCenter/VirtualCenter。我会执行所有尚未完毕的任务,瞥一眼ESX主机的性能然后感受一下各个组件是否正常。当您对系统天天的性能表现足够熟悉的时候,就很容易看出问题。相信我,无论系统看起来多么协调,在某些时候都会出现问题。这个过程如同您很熟悉自己在静止时的心跳,同时还

文档评论(0)

136****1681 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档