- 1、本文档共7页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
XXXX公司服务应急响应细则V1-1
编 号:TSB/FW-YJXY03-001 主题:服务应急响应机制保密级别:秘密部 门:售后实施部主 编:XXXX审 核:XXXX批 准:经管会版 本:V1生效日期:2012/3/9页 数:2
服务应急响应机制
在产品规划和开发时对业务关键环节进行了软件可靠性和冗余性的设计。在出现一般网络系统和模块故障的情况下,软件系统本身可以通过冗余设计继续提供服务。因此,本应急处理流程主要针对的是系统出现一些不可预测的异常情况时,如何建立一个有效的故障响应机制,对故障进行快速响应,并采用最有效和合适的措施处理应急生产问题,保障项目的正常运行。
凡不能在较短时间内现场处理,对生产造成一定影响的案例生产问题均属于应急生产问题,将立即启动应急处理流程进行应急处理。
系统应急预案
公司为客户提供软件实施服务、定制维保服务等专业系统技术服务的同时,建立了应急保障机制,提高对突发事件的组织指挥能力和应急处置能力,保证应急保障指挥调度工作迅速、高效、有序地进行,满足突发情况下,系统保障和业务恢复工作的需要。当项目系统设施遭受异常破坏、异常流量或其他特殊故障情况下,使用应急保障恢复该系统重点数据、重要局点等重要的软件模块,确保该项目平稳运行。
应急保障措施
针对软件交付项目,公司在项目交付期间,在项目组之外,将设立项目保障应急小组,负责领导、组织和协调服务资源,进行项目应急保障工作。
应急保障队伍,主要由公司技术服务产品专家和研发专家组成。我方拥有基于全球化的技术、人才、经验和质量管理的研发平台,通过IPD集成开发流程和CMM5,建立了路由器、交换机、安全、语音视讯、存储、业务软件、无线等产品专业研发团队。强大的本地化研发队,能够在紧急时刻,奔赴现场,集中研发专家力量,进行系统保障与恢复,满足项目紧急情况下系统恢复的需要。
公司已经建立了应急保障流程和机制,将不断的积累经验,提升应急保障能力。
应急技术工作流程
项目应急保障流程分为上报阶段、信息收集阶段、预案启动阶段、预案实施阶段、应急保障结束阶段和后期处置阶段等。
突发事件发生时,出现异常重大系统中断和异常网络设施损坏的局点项目支持小组,立即将情况按照该投标项目技术流程上报客户和我方,公司项目组根据严重程度上报客户保障应急小组。
保障应急小组根据公司800或客户上报,进行决策判断,必要情况下启动应急保障流程。需要客户进行协调的,立即上报客户。
预案实施阶段,公司保障应急小组协调应急保障队伍,建立现场应急保障指挥机构,并组织应急保障队伍迅速进行系统保障和业务恢复工作。遵循先核心、后区域,先重点、后一般的原则,通过备用资源的启用、应急保障措施的启用和应急故障专家紧急排除,完成系统应急故障处理。
应急保障工作任务完成后,由客户确定应急保障排除后,应急保障任务正式结束。
风险分类以及定义
根据各种运行故障可能对生产系统的正常运行造成的影响程度、波及范围,可将生产系统的全局性故障风险按照等级定义为三级:
一级风险
造成全国业务无法正常开通并时间中断(持续一天以上),产生的社会影响巨大,后果非常严重。造成一级风险的情况举例如下:
关键设备或系统的重大故障引起的业务中断,如关键设备的重大故障引起的业务中断,持续一天以上无法修复;
其他外界原因如断电、火灾等引起的导致业务中断一天以上无法恢复的;
二级风险
造成全网业务不能开通,持续时间一天以内;或部分业务不能开通,时间超过一天。造成二级风险的情况有:
业务系统故障,例如:核心交换机、骨干路由器同时发生故障;
附属设备故障引起的全网业务中断一天以内的或者部分业务中断一天以上的。
三级风险
单个系统出现故障,但可依靠备份系统接替运行,可能造成业务短暂中断;或部分业务中断,但若不能及时排除,极有可能引发重大故障,风险级别升级。造成三级风险的情况有:
业务系统故障,例如骨干核路由器故障、单条主干通信线路故障但不导致网络中断;
机房附属设备故障,如:单台UPS故障而不能正常供电。
风险分级的作用是针对不同级别的安全风险,制定不同的技术应急措施和业务应急措施,合理利用资源,及时解决问题
应急故障处理流程
按照三级风险级别,归纳三个工作流程如下:
一级风险:包括工作流程A;
二级风险:包括工作流程B ;
三级风险:包括工作流程C ;
A 一级风险故障处理工作流程:
问题现象
关键系统的重大故障引起的业务中断,如
全网核心设备路由器同时故障,持续一天以上无法修复;
系统供电系统故障、自然灾害、火灾等形成的重大故障导致
问题分析和处理
此类故障虽然发生概率很低,但影响的深度和广度巨大,所以通常都有专门的容灾中心接管所有生产业务,以便尽快恢复业务处
文档评论(0)