系统上线应急预案模板.docx

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

9-

系统上线应急预案模板

目录

TOC\o1-3\h\z\u1 总则 3

1.1 目的 3

1.2 使用范围 3

2 应急处理流程 3

2.1 应急处理说明 3

2.2 应急处理流程图 3

3 应急处置组织体系 4

3.1 组织构成 4

3.2 职责分工 4

3.3 人员及联系方式 4

4 应急处置方案 5

4.1 故障判断流程 5

4.2 故障类型 5

4.3 流程说明 6

4.4 故障定级及处理描述 7

4.5 一般故障处理流程 8

4.6 应用服务器宕机故障处理 8

4.7 应用服务器故障处理 9

4.8 数据库宕机故障处理 9

4.9 数据库故障处理 9

5 系统恢复确认 9

5.1 网络检查 10

5.2 主机系统检查 10

5.3 数据库检查 10

5.4 应用程序检查 10

总则

目的

本文的编写目的是为XXXX项目上线系统运营中心对重大系统的应急处理提供操作指导,确保在系统异常时,可以有序的实施恢复操作,及时恢复业务。

使用范围

本预案适用于XXXX系统上线故障的应急响应。

应急处理流程

应急处理说明

说明当应急发生时的处理流程。

应急处理流程图

应急处置组织体系

组织构成

说明组织的构成。设立系统平台上线应急小组,由运营方相关项目组担当。应急小组下设平台维护应急处理实施工作组,由运营支撑技术工作人员组成,平台的应急处理工作由应急处理小组的实施工作组具体执行。

职责分工

说明组织各岗位的这职责分工。

平台应急处理实施工作组职责:组织完成平台应急处理任务。负责组织制定平台应急处理方案,并检查其落实、执行情况,及时进行更新和补充,以提高容灾效率,确保应用使用的畅通。掌握全局各个平台应用,网络设备及网络运行情况,掌握应急保障设备配备情况。日常要维护、管理好各种类型的备品备件,在需要时,能及时提供。工作组成员要7*24小时保持通信工具畅通,出现异常情况时及时处理。

人员及联系方式

应急领导小组:

姓名

单位/职务

联系方式

应急实施小组:

姓名

单位/职务

联系方式

应急处置方案

故障判断流程

故障类型

故障等级

故障等级名称

故障等级说明

P1

严重

由于网路已经中断、云平台系统故障、系统宕机、数据库停止运行、数据库表数据被误删除等故障,导致系统已对外停止服务超过30分钟

P2

重要

手上青秀系统响应慢,严重影响业务处理超过30分钟

P3

一般

系统服务器出现单点故障,不稳定影响部分用户使用;功能级别bug导致部分功能无法正常使用。

流程说明

故障发生和现象描述:

软件或硬件导致宕机,如:数据库、磁盘不可访问、主机不能正常运行、网络不正常、电源掉电、运行温湿度等环境条件超标等

操作系统CPU占用率大于95%并严重影响业务超过30分钟

操作系统内存消耗超过95%并严重影响业务超过30分钟

操作系统I/O等待率大于50%并严重影响业务超过30分钟

磁盘使用率达到100%

应用程序运行异常,导致业务系统不可用

预计60分钟内无法恢复系统正常使用

网络运行情况检查:包括PING、TELNET检查等

数据库运行情况检查:表空间、慢查询、数据库日志查看等

主机系统运行情况检查:包括CPU、内存、磁盘空间、系统I/O的使用率和系统日志查看等

检查的顺序建议按照网络、主机系统、数据库、中间件和应用程序的顺序进行检查,可以根据故障现象进行实际的调整

定位故障等级包括单点故障、多点故障、其他故障

需要应急处理的故障如下:

故障序号

故障现象描述

故障类型

处理办法

1

应用服务器出现严重故障无法正常运行

单点故障

2

数据库系统出现严重故障无法提供服务

单点故障

故障定级及处理描述

一、故障级别定义

根据客户方的实际情况,我们将系统故障定义为以下三级:

级别

故障表现

一级故障

系统在运行中出现系统瘫痪或业务服务中断,导致基本功能不能实现;或在运行中出现的故障具有潜在的系统瘫痪或服务中断的危险,并可能导致基本功能不能实现;业务不能提供正常服务并有大量用户报障。

二级故障

系统在运行中出现的直接影响服务,导致系统性能或服务部分退化的故障;断续或间接地影响系统功能,业务部分功能失效,少量用户报障。手上青秀APP操作功能受损,使用户的业务运作中的某一部分功能受到不良影响,但其它部分业务功能仍可正常运作。

三级故障

系统操作性能(效率)降低,用户的业务运作的受到不良影响,但业务功能应用仍可正常工作。

二、响应方式

手上青秀项目组根据以上故障定义提供两种故障响应处理方式:

响应方式

故障表现

现场响应

技术支持工程师在用户故障发生地在用户工程师的协助下解决系统故障。

文档评论(0)

Steady + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档