5.硬件测试2ha可靠性培训.pptx

  1. 1、本文档共17页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
HA可靠性测试培训陈泽龙2016/12/06目 录 Contents1HA的定义生产网断网故障分析 23HA高可靠性测试HA的定义什么是HA?HA的英文全称是High Availability,中文翻译为高可用性。是提供冗余处理能力,从而实现不间断应用的目标。APBFDSTP双HG双管VSU 双电源浮动路由VRRPHA的定义理解我司的HA视图特性分解失效模型方案级VRRP+MSTP环路/单点故障VSU网络单点故障产品级双管单机设备/系统失效双电源电源类故障双HGHG DOWN系统级内存内存泄露CPUCPU高系统进程业务异常应用级认证认证失败DHCP表项不一致链路级APPort down/线卡故障浮动路由路由震荡生产网断网故障分析我司产品HA能力面临的考验我司2015年CSOS故障情况:2015年属于研发类故障的故障个数较2014年确实在上升(统计所有故障等级)明确归属研究院的故障:1.软件故障类:增长10.8%2.硬件故障类:增长14.0%3.产品限制类:下降17.6%4.整体故障:增长7.9%明确归属研究院的核心故障:(S86/S12K/N18K/S86E/S78E)1.软件故障类:增长43.2%(10.X核心下降21.4%)2.硬件故障类:增长4.4%(10.X核心下降16.4%)3.产品限制类:下降16.9%4.整体故障:增长15.0%?生产网断网故障分析钱白花了系统太挫了数据分析高教哭晕在厕所求不跪核心设备生产网断网故障分析传统的主备切换测试方法无法发现这类故障要是HA都生效了,产品就有美好的明天!!! 受害现场BUGIDHA模型故障描述故障影响故障原因感知恢复7793双机双管吉林大学+N18K+异常重启主校区3W人网络中断10分钟。近期在做19台N18K生意,影响很大,涉及后续产品采购内存改写,出故障后,系统检测到异常,尝试从升主。在从升主过程中,由于原主设备的业务如果存在数据未完成主从同步,会导致从设备认为批量失败虽感知故障发生切换,但切换失败7771单机双管长春中医药大学+N18K+引擎挂死长春中医药大学全网为我司设备,此网络故障包括学校及附属医院均受到影响,学校和医院网络中断。手动拔出主引擎后恢复 内核代码中存在bug,在ASID翻转以后,将导致用户进程的TLB表项无法刷新,内存访问异常。在11.0PJ5版本中关闭了jemalloc的的cache,导致该bug爆发时间缩短到数月,从而引发用户问题。复位板卡7883双机单管利尔达物联网科技园N18010的VSU,运行过程vsu突然断裂,原来主设备console接入没有反应,备设备console口接入打印报错信息;手动重启设备网络恢复,故障断网30分钟奇偶校验问题为芯片缺陷感知奇偶校验错误后复位板卡 单机单管国家互联网应急中心 + S8610 +登录设备提示内存不足,影响客户业务下联业务断网,console无法登陆1、cpu高问题已确认为客户环境中有arp攻击, 而nfpp限速值为默认值2、show run挂住及内存耗尽问题, 目前根据信息初步判断为 1/2槽线卡背板HG出现通信异常1、Kill CPU进程2、Kill 占用申请内存多的进程3、搞不定就复位HA可靠性测试什么是故障注入故障注入是指按照选定的故障模型, 用人工的方法有意识地产 生故障并施加于特定的目标系统中, 以加速该系统的错误和失效的发生, 同时采集系统对所注入故障的反应信息,并对回收信息进行分析,从而提供有关结果的过程。按所注入的故障类型分:软件故障注入、硬件故障注入按系统故障的抽象级别:方案级、产品级、系统级、业务级、链路级故障注入;HA可靠性测试内存过载测试 [概念] 当一个计算机系统的内存占用率为80%~100%时,视为内存过载。[测试目的] 内存过载测试主要是测试系统在内存即将用完的时候,系统运行的可靠性。[故障产生原因] (1)、大流量冲击 (2)、内存丢失 (3)、算法缺陷,需要占用大量内存[故障可能产生的后果] (1)、复位 (2)、空转 (3)、系统内部数据状态不一致,即发送消息的模块和接收消息的模块状态不一致。 [测试时的故障产生方法] 采用内存丢失的办法实现内存过载。[测试步骤] (1)、丢失空闲内存,使内存占用率达到80%,运行一段时间,观察系统的运行状态。 (2)、在前面的基础上再丢失10%的内存,运行一段时间,观察系统的运行状态。 (3)、把剩余的所有内存全部申请出来丢掉,观察系统的运行情况。 [测试的期望结果] 对于一般系统,内存过载时能自动降低业务处理量,如果持续时间过长,复位单板。对于HA系统, 要求能区分是大流量冲击还是内存丢失造成的内存过载,如果是大流量冲击造成的过载,应能自 动降低业务处理量,如果是内存丢失造成的过载,应能复位单板,但对业务不造成影响HA可靠性

文档评论(0)

zqj + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档