第十九章故障及问题管理.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第十九章故障及问题管理

第十九章 故障及问题管理 1、故障是系统运转过程中出现的任何系统本身的问题,或者是任何不符合标准的操作、已经引起或可能引起服务中断和服务质量下降的事件。 2、故障处理是指发现故障之时为尽快恢复系统IT服务而采取必要的技术上或者管理上的办法。 3、故障的特征:影响度、紧迫性、优先级 4、故障管理目标:尽可能快地恢复服务级别协议规定的水准,尽量减少故障对业务运营的不利影响,以确保最好的服务质量和可用性。 5、常见故障: 硬件及外围设备故障(主机宕机、设备无故报警、电力中断、网络瘫痪、打印机无法打印)。 应用系统故障:服务不可用、无法登录、系统出现bug 请求服务和操作故障:忘记密码、未做来访登记 6、故障管理包含了:1、故障监视 2、故障调研 3故障支持和故障处理 4、故障终止 P441页 图: 还包括:故障分析定位 故障处理跟踪 7、故障接触的人员:1、故障现场接触人员 2 初级支持人员 3 高级支持人员 8、故障原因分类: ⑴ 主要3类:技术因素、应用性故障、操作故障 ⑵扩展到7类:按计划的硬件、操作系统的维护操作时引起、应用性故障、人为操作故障、系统软件故障、硬件故障、相关设备故障、自然灾害。 9、监视的项目及监视方法:人员、规范操作的执行、硬件和软件是故障监视的重点所在。 1、对系统硬件及设备的监视包括:各主机服务器及其主要部件、专门的存储设备、网络交换机路由器等。 监控方法:主要是采用通用或者专用的管理监控工具,它们通常具有自动监测、跟踪和报警的若能。 2、以软件的监视主要针对:其应用性能、软件bug和变更需求。 监控方法:也可以采用管理监控工具,但通常应用系统的缺陷由专门的测试工程师负责监视,或者使用过程中由用户发现并提出。 3、需要监视的人员包括:系统操作员、系统开发工程师、用户、来访者,甚至包括系统所在机房的清洁工和运输公司的职工。 要对他们与系统的接触过程中的行为进行跟踪和记录,防止或者及早发现非标准的操作带来的系统故障或服务故障。 10、故障的信息来源:服务台、系统、用户和其他IT部门 故障调研过程:故障信息搜集、故障查明和记录(确认影响、问题管理、密切跟踪进展)。 11、故障定位分析:中央处理器的故障定位 、外围设备的故障定位、电源部件的故意定位 12、故障得到解决后,服务台应该确保哪些工作? 1、有关用于解决故障的行为的信息是准确易懂的。 2、根据故障产生的根本原因对其进行归类。 3、客户口头同意故障解决方案和方案执行的最终结果。 4、详细记录了故障控制阶段的所有相关信息:客户是否满意和满意度 如何、处理故障所花费的时间、故障终止的日期和时间。 13、服务台负责跟踪和监督所有故障的解决过程,在这个过程中,服务台要做到哪些要求? 1、监督故障状态和故障处理最新进展及其影响服务级别的状况。 2、特别要注意故障处理责任在不同专家组之间转移。 3、更多地注意高影响度故障 4、及时通知受影响的用户关于故障处理的最新进展。 5、检查相似的故障。 14、主机故障恢复措施:(根据所提供的备份类型不同)热重启T、暖重启2-3T、冷重启10-100T。 数据库故障主要分为事务故障、系统故障(软)和介质故障(硬)。 事务的故障由系统自动完成,恢复步骤如下: 1、反向扫描日志文件,查找该事务的更新操作。 2、对该事务的更新操作执行逆操作,也就是将日志记录更新前的值写入数据库。 3、继续反向扫描日志文件,查找该事务的其他更新操作,并做同样处理。 4、如此进行下去,直到读到了此事务的开始标记,事务故障恢复就完成了。 系统故障的恢复是由系统在重新启动时自动完成。步骤如下: 1、正向扫描日志文件,找出故障发生前已经提交的事务,将其事务标识记入重做(redo)队列。同时找出故障发生时尚未完成的事务,将其事务标识记入撤销队列(undo). 2、反向扫描日志文件,对每个undo事务的更新操作执行逆操作,也就是日志记录中更新前的值写入数据库。 3、正向扫描日志文件,对每个redo事务重新执行日志文件登记的操作,也就是将日志记录中更新后的值写入数据库。 介质故障的恢复方法是重装数据库,然后重做已完成的事务,具体步骤如下: 1、装入最新的数据库后备副本,使数据库恢复到最近一次转储时的一致性状态。 2、装入相应的日志文件副本,重做已完成的事务。 介质故障的恢复需要DBA的介入,DBA只需重装最近转储的数据库副本和有关的各日志文件副本,然后执行系统提供的恢复命令,具体的恢复操作仍由DBMS完成。 16、网络故障恢复措施:(当遇到线路故障或是网络连接问题时,需要利用备用电路或者改变通信路径等恢复方法

文档评论(0)

hh83kxy + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档