- 1、本文档共7页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
服务器故障应急措施方案
部门 版本编号
日期 密级
Ver_1.0
公司内部使用
文档信息
文档名称
日期
2014-03-14
服务器故障应急措施方案
版本号Ver_1.0
更新说明
建立文档、初始化
1. 方案概述
导致服务器出现故障的问题是一个庞大的集合,可以分成很多种导致服务器出现故障的原因,根据服务器故障出现的状况进行分类,确定故障属于哪一个级别,根据相应的故障级别对故障做对应的处理,确保故障的处理流程是标准化的。
如果没有一套故障处理的标准,工程师只能靠经验去判断,但是依靠经验判断并不 是不可以,有时候这种处理方式会很高效,但是大多数这种处理方式都是不太合理的, 如果更换了运维工程师,显然每一个工程师通过经验去判断故障原因的方式都不尽相同, 这样的差异将会使故障处理事后不能够得到很好的记录与存档,以供其他工程师以后借 鉴故障处理案例。
故障处理标准化的优点:
A 根据流程可以确定哪些故障应该立即汇报上级,哪些可以自行解决后,再写故障处理报告汇报上级,这样做有助于提高故障处理效率。
B 对于工程师经验判断,可能出现判断失误的情况,根据故障判断流程,可以不遗漏任何可能的情况对服务器故障进行排除。
C 有时候工程师处理了故障之后只是简单的做了一下汇报,并没有一些故障处理过程的记录,以及故障处理的详细时间记录,这样对需要追溯以前的具体情况的时候就束手无策了。
2. 划分故障等级
Ⅲ级
(关键)
当系统出现下列现象时,属三级故障:
部分设备或软件异常,局部功能受限,系统整体仍可正常工作,对客户业务影响不大或存在隐患;
关键备用设施因故障离线,主用设施仍能正常工作;
系统运行指标(例如: I/O 效率、 CPU 效率)受到直接或间接影响,客户业务处理缓慢;
立即汇报上级
Ⅳ级
当系统出现下列情况而不影响客户业务时,属四
故障排错判断
(告警)
级故障:
3. 故障分类
1、 机柜扩容; 四 机房机柜迁移 2、 机柜移位;
3、 服务器迁移机柜;
1、 电源线损环;
2、 服务器电源损坏;
3、 服务器非人为硬盘损坏;
五 服务器硬件故障 4、 服务器受黑客入侵攻击时导致硬盘损坏;
5、 CPU 温度过高烧毁;
6、 内存使用中损坏;
7、 主板在电源损坏时容易烧毁;
六 服务器系统故障
七 服务器应用故障
1、 黑客攻击导致系统瘫痪;
2、 缓存日志过多没有整理;
3、 人为配置不当导致系统崩溃;
4、 硬盘损坏导致系统崩溃;
1、 服务器放置的应用程序存在bug 后门等;
2、 服务器环境配置问题;
3、 黑客攻击导致应用程序崩溃;
4、 硬盘、内存的兼容性差导致应用程序崩溃;
5、 应用程序没有优化占用服务器硬件资源过高导致崩溃;
6、 用户负载过多导致应用程序崩溃;
八 服务器硬件超负荷
1、 数据超过硬盘读写负载能力导致应用程序崩溃;
2、 CPU 使用率跑满导致服务器宕机;
3、 使用内存cache 占用过多导致宕机;
4、 硬盘空间使用满导致宕机;
1、 用户量过多,服务器带宽不足,导致卡顿,用户访问程序故障;
九 服务器网络超负荷 2、 系统连接数过多造成系统拥堵网络带宽使用不上;
3、 数据库数据读写占用过多服务器连接数,达不到预期的服务器带宽;
十
人为违规操作
1、
2、
3、
人为违规关机;
人为违规操作更改或删除服务器应用; 机房人为关机或断电;
1、
2、
服务拒绝攻击导致系统崩溃,如常见的UDP 洪水攻击等; 利用型攻击导致黑客入侵系统,如特洛伊木马、口令猜测
十一 服务器受到攻击 等;
3、 信息收集型攻击,如体系结构探测、DNS 域转换等
4、 假消息攻击,如DNS 高速缓存污染、伪造电子邮件等
十二 不可预知因素
1、 机房遭遇火灾事故;
2、 机房遭遇地震事故;
4. 故障应急处理流程
5. 故障排错流程
6. 数据与日志备份
在进行故障修复的时候,需要对服务器系统以及软件的配置文件进行修改,这些修改可能造成的风险是很大的,这时保存备份配置文件信息、应用数据、系统日志信息会很重要,可以直接通过shell 脚本对服务器重要的数据进行备份。
7. 故障处理报告
7.1. 故障处理报告文件命名规则
例如:故障处理报告_Ⅰ级—紧急_squid-chendu_系统崩溃
经验复用。工程的设计上,可以采用原有的设计方案;施工上,工人无需培训,直接复用模拟系统的建设施工经验;系统的使用上,原有业务人员日常工作无差异;系统维护上,业务经验和行政管理安排无需变更;高性价比。在方案选型、设备选型时,充分考虑改造成本、运维成本等, 投资收益最大化。客观性:依据客观事实、遵循科学方法进行分析,以行业公认的谨慎、诚实和勤勉尽责的态度,为投资人或者客户提供证券、期货投资咨询服务。服务机器人行业发展路径将
文档评论(0)