数据中心智能运维管理方案.docx

? ? ? ? ? ? ? 数据中心智能运维管理方案 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 目 录 TOC \o 1-3 \h \z \u 数据中心智能运维管理方案 1 第一章 数据中心基础运维概述 4 第二章 数据中心运维分类 4 2.1 基础环境运维管理 5 2.2 网络运维管理 5 2.3 服务器和存储运维管理 6 2.3.1 服务器运行情况及性能监测 6 2.3.2 服务器软硬件兼容性检查 7 2.3.3 磁盘阵列设备管理 7 2.3.4 机柜、电源、网线布局管理 7 2.3.5 协助第三方维护 7 2.4 基础软件运维管理 8 2.4.1 操作系统 8 2.4.2 数据库 8 2.4.3 中间件 9 2.4.4 备份系统 10 2.4.5 应用系统 10 第三章 运维工作内容 10 3.1 日常维护工作 10 3.2 系统性能监控管理 11 3.3 系统维护管理 11 3.4 系统配置与支持维护 12 3.5 系统容量管理 13 3.6 巡检工作 13 3.7 定期服务报告 15 3.7.1 设备配置档案 15 · 维护设备及软件清单、系统功能、详细配置信息及软件版本和设备PN号; 15 · 设备位置、网络拓扑、设备连接拓扑及各种工程图纸; 15 · 如果系统发生变更,如实施软件、补丁、微码升级或业务调整,同步更新配置档案; 15 · 系统双机、备份设置和运行情况。 15 3.7.2 服务文档 15 · 技术参数的配置文档; 15 · 处理故障时的《故障处理报告》; 15 · 每季度的《季度运维总结》; 16 · 每次重大故障处理后发布《重大问题分析报告》; 16 · 共享维护内容及其他技术资源整理知识库; 16 · 每次巡检时的《巡检报告》; 16 · 微码更新、性能分析及优化、机房搬迁等服务实施方案、专业服务报告和技术建议等。 16 3.7.3 服务总结 16 3.8 运行维护优化评估 16 3.9 应急保障措施和组织 17 3.9.1 应急响应系统 17 3.9.2 应急响应过程 17 3.9.3 制定应急保障预案及演练 18 3.10 IT运维服务工具 20 3.10.1 运维监控平台 20 本文梳理了数据中心运维分类,各类运维所包含内容、性能监控检查列表、各主要组件巡检内容、运维优化评估、应急保障措施和组织、IT运维服务工具等。非常详细,具有实操性。 第一章 数据中心基础运维概述 数据中心的基础运维工作主要包含包括四个部分:基础环境、网络、服务器存储和基础软件。 其中第一部分机房基础环境部分,包含机柜位置、空调、消防、安防、弱电、UPS等最基础的机房环境设施。需要对这些基础环境部分进行运维维护,确保整个机房环境正常稳定。 第二部分为网络环境,包括当前数据中心所有的交换机、路由器等设备,以及由这些设备组成的所有网络,需要监控网络运行情况并提出网络风险评估,定期对网络进行优化配置,提高网络运行效率,保证整个网络环境的安全。 第三部分服务器和存储部分,包含整个数据中心的小型机、服务器、存储设备、SAN交换机等设备。这些设备支撑着整个业务系统,是非常重要的基础硬件环境。需要监控这些设备的运行情况,及时处理出现的问题和变更,并基于整个环境提供优化。 第四部分为基础软件部分,包括各种操作系统、数据库、中间件、备份软件等等。要求这些软件可以正常工作,并优化配置,为平台和工作站正常服务,当这些软件出现问题时,能发现并提出解决方案;可以协助应用人员解决故障或进行对应的变更、升级等操作。 本方案将基于这几个方面进行设计,确保数据中心正常、高效运行。 第二章 数据中心运维分类 数据中心运维团队将根据当前数据中心的实际情况和对应的管理制度,通过主动性、预防性维护,执行日常维护作业计划,对告警、性能、运行状态进行检查分析,及时进行数据备份,并定期对备份数据进行恢复性测试验证,对系统运行质量进行分析,并进行维护记录。对监控或维护中发现的问题及时处理,消除隐患,保障平台的稳定运行。我们将基于以下几个方面对运维工作进行描述 2.1 基础环境运维管理 针对基本的机房环境设施,我们的工作内容包含以下这些内容: 1) 机房机柜摆放规划和机柜管理; 2) 服务器和网络设备摆放规划和日常管理; 3) 设备出入机房审批登记管理; 4) 内部人员出入机房审批登记管理; 5) 外部来宾机房参观审批登记管理; 6) 机房电力系统监控、

文档评论(0)

1亿VIP精品文档

相关文档