某机房运维方案0001.docx

  1. 1、本文档共81页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
v1.0可编辑可修改 v1.0可编辑可修改 32 32第 PAGE #页 机房运行维护工作建议书 为加强********单位数据中心机房各系统的运行维护和管理工 作,保证系统长期稳定、高效运行。根据************** 信息化工作 管理规定,编制适合于******机房运维方案。 1.运维现状分析 ******数据中心机房目前由*******部门管理,由指定的外协 公司承接基本运维工作,其职能限定于出入安全、配件管理、设备 管理、运行物理环境管理。对于设备本身及其运行维护、软件运行 维护等工作,仍由各个供应商按项目签订的协议提供免费服务, 目 前这些免费服务大部分处于过期或者即将到期的状态。 目前机房运维没有涵盖桌面终端、大楼综合布线、楼层配线间 与设备间等,未构成一个完整的运维体系。 1.1.故障连带现象 多方运维导致机房出现中断或者服务不良的情况时有发生。 ********公司机房由于始终未能受到规范统一的运维管理, 加上机 房作为数据核心,由各种外部单位组成的运维团队无论在数据安全 性、人员责任感、技术全面性等方面,都难以保持机房的持续性运 我们没有精确的数据来说明机房的运行情况, 这也是目前运维 工作尚未达标的一种表现,同样,这也导致我们对现状无法进行精 确描述。但是,通过一些现象仍然可以发现机房运维工作应该大幅 度改进。 长时间断网 具体原因不详,但由于机房服务器大部分无法接通, 成都地区 的二级单位网络依赖的DHCF服艮务无法使用等现象持续多个小时, 发现晚,响应慢。 上班时间网速慢 具体原因不详,但简单归结为SEP或者人多并不能完全的解释 网速慢的问题,由于网络是信息化建设的基础,充分发挥机房内部 与外部的资源是运维工作的重要职责。 服务意外退出 当虚拟机系统开始引入后,我们时常发现挂载在虚拟机系统上 的一些服务器无故宕机且不知道任何原因, 当用户需要使用时,由 于无法自动恢复,影响正常工作。 1.1.4. 不易寻找责任人 机房是一完整的整体,涉及到环境、网络、服务器、存储、操 作系统、数据库、应用软件等,当一个故障发生时,难以判定故障 原因,而目前机房是各个外协单位各施其责, 最终造成故障排除时 间缓慢,相互推诿的情况时有发生。 1.2.半自动化运维现状 目前许多企业的IT运维已经实现从人工运维到计算机管理, 但延展咨询在同客户的交流中发现其中很多企业的 IT运维管 理 还只是处在“半自动化”的运维状态。因为这种 IT运维仍然是等 到IT故障出现后再由运维人员采取相应的补救措施。这些传统式 被动、孤立、半自动式的IT运维管理模式经常让IT部门疲惫不 堪,主要表现在以下三个方面: 1.2.1. 运维人员被动、效率低 在IT运维过程中,只有当事件已经发生并已造成业务影响时 才能发现和着手处理,这种被动“救火”不但使IT运维人员 终日 忙碌,也使IT运维本身质量很难提高,导致IT部门和业务部门对 IT运维的服务满意度都不高。目前绝大多数的企业IT运维人员日 常大部分时间和精力是 处理一些简单重复的问题,而且由于故障 预警机制不完善,往往是故障发生后或报警后才会进行处理, ,使 到IT运维人员的工作经常是处于被动“救火”的状态, 不但事倍 功半而且常常会出现恶性连锁反应。 缺乏一套高效的IT运维机制 目前许多企业在IT运维管理过程中缺少自动化的运维管理模 式,也没有明确的角色定义和责任划分,使到问题出现后很难 快 速、准确地找到根本原因,无法及时地找到相应的人员进行修复和 处理,或者是在问题找到后缺乏流程化的故障处理机制, 而在处理 问题时不但欠缺规范化的解决 方案,也缺乏全面的跟踪记录。 缺乏高效的IT运维技术工具 随着信息化建设的深入,企业IT系统日趋复杂,林林总总的 网络设备、服务器、中间件、业务系统等让IT运维人员难以 从容 应对,即使加班加点地维护、部署、管理也经常会因设备出现故障 而导致业务的中断,严重影响企业的正常运转。出现这些问题部分 原因是企业缺乏事件监控和 诊断工具等IT运维技术工具,因为在 没有高效的技术工具的支持下故障事件很难得到主动、快速处理。 现在随着IT运维管理工作的复杂度和难度的大大增加,仅靠 过去几个“运维英雄”或“技术大拿”来包打天下已经行不通 了,企业开始需要运用专业化、标准化和流程化的手段来实现运维 工作的自动化管理。因为通过自动化监控系统能及时发现故障隐 患,主动的告诉用户需要关注的资 源,以达到防患于未然。例如, 全天候自动检测与及时报警能实现 IT运维的“全天候无人值 守”,大大降低IT运维人员的工作负担。而且,通过自动化诊断 能最 大限度地减少维修时间,提高服务质量。因此,对于越来越复 杂的IT运维来说,将纯粹的人工操作变为一定程度的自动化管理 是一个重要发展趋势

文档评论(0)

kunpeng1241 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档