数据中心运维管理方案
目录
运维工作内容 3
3.1 日常维护工作 3
3.2 系统性能监控管理 3
3.3 系统维护管理 3
3.4 系统配置与支持维护 5
3.5 系统容量管理 6
3.6 巡检工作 6
3.7 定期服务报告 8
3.7.1 设备配置档案 9
3.7.2 服务文档 9
3.7.3 服务总结 9
3.8 运行维护优化评估10
3.9 应急保障措施和组织11
3.9.1 应急响应系统11
3.9.2 应急响应过程11
3.9.3 制定应急保障预案及演练12
3.10 IT 运维服务工具15
3.10.1 运维监控平台15
运维工作内容
3.1 日常维护工作
运维团队的值班安排分三班,保持 7x24 小时的人员安排,在任何时间数据中心都由值班人
员。运维团队根据数据中心的运维管理制度,通过主动性、预防性维护,执行日常维护作业
计划,对告警、性能、运行状态进行检查分析,及时进行数据备份,并定期对备份数据进行
恢复性测试验证,对系统运行质量进行分析,并进行维护记录。对监控或维护中发现的问题
及时处理,消除隐患,保障平台的稳定运行。
3.2 系统性能监控管理
运维团队通过综合监控系统等实施 7*24 小时平台设备监控,发现告警,并进行处理,解决
问题。使用综合监控系统对系统运行进行实时检查。对监控或维护中发现的问题及时处理,
消除隐患,保障平台的稳定运行。
3.3 系统维护管理
故障处理
运维团队负责故障发现、故障分析、故障处理工作,在规定时间内,处理完成故障,同时负
责调查故障原因,最后编写详细的《故障报告》,包括故障发生的起止时间、原因、现象、
处理过程、处理结果和处理经验。如果故障设备或组件为第三方维保,值班工程师负责和第
三方对接,迅速解决问题。
软件和补丁维护
操作系统级别的软件和补丁服务
• 运维团队对于维保设备提供所有软件补丁,提供预警服务,对于软件的维护版本提供
补丁,并按稳定性和安全性的要求,提供是否升级的建议,评估风险和制作实施方
案。
• 故障经工程师的分析表明它是由一个软件错误所引起的,那么运维团队需提供相应的
软件版本和补丁。
• 对于软件版本和补丁的安装,运维团队首先将确认是否可以在对应平台上进行装载。
若确认可实施,运维团队则将提供补丁升级服务,升级前要配合相关应用方做好测
试。
应急预案及演练
为加强风险管理意识,提高应急预案相关人员的应急处置能力,及时发现应急预案可能存在
的问题,确保在紧急情况下,应急预案能够真正发挥作用,需要通过周期性的演习演练来不
断检验应急体系应急预案的可靠性、有效性和可操作性。
应急预案的演习演练方式、演习演练频度等内容明确如下:
1、演练分为桌面演练和实战演练两种方式,每次演练都应该有相关技术人员全程参与。
2、定期桌面演练,定期实战演练;
3、每次演练结束之后应进行分析和总结,及时完成应急预案的更新、优化和完善。
协助第三方维护
在服务期内,运维团队将配合第三方或服务商进行系统的升级、替换、新部件(模块)安装
等,并在实施完成后确认工作正常。
备份
为保证在系统崩溃或停止运行时能尽快恢复系统,将制定相关的数据备份制度。应针对不同
系统制定备份方案,应包括备份方法、频率等。数据备份包括定期和不定期备份。重要数据
应每月进行全备份和增量备份;不定期备份应该在数据变更后立即进行,更新前的备份按需
要保存一定时间。
系统优化
对于巡检或日常维护过程中发现的系统隐患或系统不是处于满意状态,提供相关系统优化的
报告。
对于运行情况跟踪,预防性诊断设备存在的隐患,提供系统优化建议,提供系统规范和流程
的建议,提供系统优化概要。
硬件设备统计
运维团队将定期对参保设备进行统计。
质量分析报告
运维团队建立数据中心平台的质量分析报告。每月汇总设备运行质量、系统性能等指标,进
行数据中心平台运行质量分析,排除质量隐患,不断提高网络运行质量
原创力文档

文档评论(0)