线上事件或故障处理流程规范.doc

  1. 1、本文档共12页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

线上事件解决规定

编制:

审核:

批准:

版本号

V1.0

文档编号

发布日期:201X年X月

修订历史记录

序号

日期

修订内容

版本

编制

审核

批准

目录

TOC\o1-3\h\u46521.线上问题管理流程 2

240541.1.线上事件解决流程图 2

34031.2.目的 3

233261.3.线上问题定义 3

251791.4.问题解决 4

117632.事故培训流程 6

196993.处罚规则 7

线上问题管理流程

线上事件解决流程图

目的

为了明确线上事件的报告、应急响应、解决、复盘机制,保证能以快速、高效、准确的应急解决能力来保证各类业务系统的正常运转,当发生突发事件时,能在最短的时间内恢复系统的正常运转,将因此带来的损失控制到最低限度,特制定此流程。

线上问题定义

线上事件:涉及线上故障和需求。

线上故障:涉及线上故障(A级、B级)和一般故障(C级)。

线上故障的等级定义如下:

级别

定义

问题

A级

现网整体业务中断严重错误,

1、由程序引起的死机、非法退出;2、数据丢失;

3、关键流程异常或核心业务功能报错。

1、应用服务宕机

2、无法使用

3、数据异常、交易异常

4、系统漏洞、安全漏洞、功能漏洞

5、用户数据丢失

6、已购买且授权功能模块缺失

B级

现网局部业务(或应用)报错

较严重错误,大部分用户必现的问题:1、局部业务或流程故障;2、数据无法保存。

1、无法上传附件、资源

2、记录数据异常

3、登录异常、注册异常

4、加载缓慢、服务闪退

5、服务报错、内容异常

6、个别应用无法正常启动

7、应用报错,导致业务流程不能正常进行下去

8、轻微的数值计算错误

9、查询功能无法使用

10、无法下载附件、资源

11、提交数据无法保存

12、部分用户已购买且授权功能模块缺失

C级

个别异常报错

或者不影响用户正常使用,但存在明显异常的问题

1、其他用户正常,某一用户使用异常

2、加载缓慢、展示异常、预览异常

3、模块异常、页面报错

4、界面排版显示异常

5、异常操作未给出相应提醒

6、删除操作未提醒用户

7、文字错误、链接错误、提醒错误

8、同一应用数据在不同地方不一致

9、推送消息延迟较大

问题解决

报告问题

发现线上事件的人员,涉及用户、业务方、运维监控、测试人员等发现线上事件的人员。报告人发现线上事件后,需要第一时间报告给运营经理、项目经理。

受理问题

事件发生时:

1)接受线上事件报告;

2)判断线上事故是否是故障:接到线上事件报告后,一方面判断线上事故的性质;

3)对外报告事故解决进展:假如是故障,立刻按照流程规定告知相关负责人。运营经理或者想经理随时将解决情况上报给受影响的部门和相关管理人员。假如是非事故,需要协助解决或者引导用户找到解决方法。

3、解决问题

1)线上故障为A级,需要立即告知运维部、研发管理部以及相关产品部门的领导,并告知中心领导。由各部门领导协调事故解决,10分钟内响应事故,2小时内给予解决保证系统恢复正常,并及时告知运营经理或者项目经理。

线上故障为B级,需要立即告知运维部、研发管理部以及相关产品部门的领导,并告知中心领导。由各部门领导协调事故解决,10分钟内响应事故,1小时内给予解决保证系统恢复正常,并及时告知运营经理或者项目经理。

线上故障为C级,需要尽快将问题录入工单系统,告知产品部门产品经理或技术经理以及测试经理,并告知部门部长。由产品/技术经理协调解决线上事故,保证系统在最短时间内恢复正常,最长不得超过48小时。

4、验证问题

线上故障受理后都需要测试人员实时跟进,协助技术人员分析定位问题。假如是A级或者B级故障,问题修复后第一时间验证并告知运营经理或者项目经理;假如是C级故障,开发人员修复问题后及时更新缺陷状态并告知测试人员验证,并评估是否需要发布。

需要发布。问题解决人员需要按照上线管理流程进行程序发布。

不需要发布。测试人员直接验证问题是否已解决:假如验证通过,需要在工单系统中关闭问题单。假如验证不通过,则将问题单重新打开并提醒问题解决人员需要重新进行问题修复。

5、告知业务方

1)线上故障为A级或者B级,故障恢复前,由运营经理或者项目经理跟踪解决进展、每隔15分钟告知业务方。直至故障恢复正常

2)线上故障为C级,由运营经理或者项目经理跟踪问题状态、问题单关闭后实时告知业务方。

事故培训流程

线上重大事故解决之后,需要召开线上事件的事故培训会议,对事故进行具体分析并给出规避措施以及潜在风险评估,从而避免同种重大事故再次出现。

QA问题记录:

1)收集和维护各部门线上事件解决人员清单和通讯录,以便事故协调小组及时联系到相关的解决人员

2)收集线上故障实例,对事故等级定义提

您可能关注的文档

文档评论(0)

186****0349 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档