运维应急服务响应预案.docVIP

  • 10
  • 0
  • 约1.37千字
  • 约 4页
  • 2024-05-15 发布于广西
  • 举报

运维应急服务响应预案

PAGE

PAGE

2-

运维应急服务响应预案

PAGE

PAGE0

运维部门应急预案

一、目的

在日常服务器正常运行过程中,对于意外情况将难以完全避免。对项目正常运行中的突发风险进行详细分析,并针对各类突发事件,设计了相应的预防与解决措施,同时提供完整的应急处理流程。

涉及人员及部门

运维全体人员、客服端、服务端等技术支撑

三、应急预案实施基本流程

SHAPE已解决扩大应急发现故障启动应急预案,并通知领导

已解决

扩大应急

发现故障

启动应急预案,并通知领导

按事件流程处理

初步判定

故障恢复

联系相关负责人处理

联系开发主管人员处理

一般事件

突发事件

总结,修订应急预案

已解决

未解决

突发事件应急组

未解决

已解决

汇报进度

汇报进度

汇报

增援

记录到Redmine

四、突发事件应急策略

(1)值班人员平时应当做好应急事件的监控工作,对于突发事件应当认真分析、准确判定故障发生的数据域,负责跟踪该事件直至其结束。事后做好文档登记工作上报领导。

(2)正常情况下,要求值班人员在10分钟内进行事件确认。如属于一般事件则按事件流程进行分派处理,否则应当迅速启动《应急预案》,并严格按《应急预案》所规定的步骤快速实施应急处置,及时汇报上级领导,掌握实时处理情况。

(3)在处理过程中,如需其他部门配合,应当及时向上级领导部门汇报,协调沟通,尽快联系相关人员进行援助处理。

五、管理制度规范

5.1时间问题

7*24小时保持电话网络畅通,及时回复相关问题,在文字描述不清的情况下,可以通过当面或者电话沟通协商解决

响应时间:

故障级别

响应时间

故障解决时间

I级:属于紧急问题;其具体现象为:系统崩溃导致业务停止、数据丢失。

10分钟,30分钟内提交故障处理方案

3小时以内

II级:属于严重问题;其具体现象为:出现部分服务失效、系统性能下降但能正常运行,不影响正常业务运作。

10分钟,30分钟内提交故障处理方案

6小时以内

III级:属于较严重问题;其具体现象为:出现系统报错或警告,但业务系统能继续运行且性能不受影响。

10分钟,30分钟内提交故障处理方案

12小时以内

IV级:属于普通问题;其具体现象为:系统技术功能、安装或配置咨询,或其他显然不影响业务的预约服务。

10分钟,2小时内提交故障处理方案

24小时以内

5.2行为规范

运维管理员养成良好习惯,在修改文件、数据库数据等一定要先做好备份,确认无误后再修改保存.

严格按项目经理给出的发布、更新流程执行。

与其他部门和环节协同工作,密切配合,共同开展技术支持工作。

出现疑难技术、业务问题和重大紧急情况时,及时向负责人报告。

针对关键数据和危险操作命令,一定要谨慎操作,再三确认后再执行.

处理紧急故障时,要冷静思考,查看分析日志。找出问题所在,并给出合适的解决方案

定期对数据、系统状态、日志等文件进行巡检,发现问题,做好相关的处理及记录到Redmine管理,方便后期遇到类似问题,有记录可查.

文档评论(0)

1亿VIP精品文档

相关文档