IBM高性能计算机系统一次重大故障分析_计算机论文.docVIP

IBM高性能计算机系统一次重大故障分析_计算机论文.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
IBM高性能计算机系统一次重大故障分析_计算机论文.doc

IBM高性能计算机系统一次重大故障分析_计算机论文 IBM高性能计算机系统一次重大故障分析_计算机论文 摘要 IBM高性能计算机系统承担着中国气象局主要气象气候业务科研模式运行,整个系统的数据交换网络是通过HPS(High Performance switch)来实现的。2006年9月21日,IBM高性能计算机系统的HPS网络发生故障,导致了科研分区不能使用,但没有影响业务模式系统。文章主要介绍了这次故障现象和解决办法,分析了故障发生的原因,并通过对故障的分析总结,探讨了目前存在的问题,以及以后的一些工作计划和建议。关键词 故障解决HPS IBM 高性能计算机引言 IBM高性能计算机系统承担中国气象局主要的天气气候业务科研模式运行,系统在2004年末安装以来,运行一直比较平稳。在整个系统中,数据交换是通过IBM HPS(High Performance Switch)网络实现的,通过SWITCH网络为用户的并行作业提供通信。如果SWITCH网络出现问题,就会影响模式的运行效率,甚至可以导致整个系统不能使用。在2006年9月21日,科研分区的SWITCH网络故障,导致了整个科研分区的瘫痪,9月24日故障恢复;此次故障对数值预报系统和动力气候模式预测系统的业务模式没有影响,只是涉及了科研分区的用户和作业。 1 故障基本情况 1.1 故障现象 2006年9月21日,科研分区的系统性能下降,用户作业的运算速度比较慢,检查发现HPS(High Performance Switch)[1]网络的通信状态大面积出现异常,影响了GPFS(General Parallel File System)[2]数据文件系统和作业管理软件L DLEVEL的正常运行,导致用户无法使用数据空间和正常提交用户作业,最终导致了用户无法使用科研分区;在SWITCH网络通信正常后,GPFS文件系统中的有些文件不能正常访问。 1.2 处理过程 在故障发生后,为了确保不影响业务,代写论文 对系统上运行的业务模式分析并做应急处理。系统承担的业务模式包括数值预报业务模式系统和动力气候模式系统,这些业务模式都运行在业务分区,但是动力气候模式系统的用户空间挂接在科研分区的服务节点上,为了避免维护科研分区时影响业务,紧急切换HACMP(High Available Cluster Multi—Processing),使文件系统挂接在业务分区。 在确保业务可以稳定运行后,由于当时用户已无法使用科研分区,因此首先申请对科研分区进行停机维护,然后分析并解决故障,处理过程如下。 (1)分析HPS网络通信数据,发现F45一S11和F46一S07的两块主板上的芯片内部通信不正常,决定更换这两块主板;但由于备件新损的原因,只有一块主板可用,只更换了F46一S07 SWITCH的主板。 (2)在重新加电启动完毕后,仍有大量的HPS网络不能通信,导致GPFS不能稳定工作,用户无法正常提交作业。 (3)用SWITCH管理界面检查SWITCH状态时,显示大量节点存在光纤卡故障的报错,但光纤卡的状态指示灯显示正常,更换了5块光纤卡进行检测,没有作用,故排除了大批量光纤卡故障的可能。 (4)收集SWITCH的SNAP数据传给美国实验室,对数据进行分析;经过数据的多次收集传递,美国实验室SWITCH产品专家对底层数据进行分析后,建议对F20、F21、F22、F24、F28、F30、F34、F36、F38、F45、F46、F47、F48、F49、F50机柜进行电源微码刷新,刷新为统一的26A6版本后,SWITCH网络恢复正常。 (5)系统启动后,对科研分区进行检查,发现不能正常访问GPFS文件系统,3个文件系统均报I/O读的错误,但可以正常写入数据;fsl可以用mmfsck命令进行修复,但fs2和fs3均各有一个NsD(Net—work Shared Disk)的状态为“down”状态,然后手工启动GPFS文件系统,整个系统恢复正常。 2 故障原因分析 2.1 控制信号传输过程 从图1可见,IBM 高性能计算机系统是通过硬件控制终端HMC(Hardware Management Console)对主机和SWITCH的硬件进行控制,通过HMC上的SNM (SWITCH Network Manager)软件管理HPS,在HMC上启动FNMD(Federation Network Manager Daemon)进程,实现对HPS网络的配置、初始化、监视、控制、恢复、分析和诊断。此功能与节点是否安装操作系统无关,因为这些指令直接由HMC发起,控制指令都是通过电源传输的,只要电源正常,就会响应执行,SWITCH的拓扑结构是在电源启动的过程中通过自检获得的。 每个HMC系统有一个RS232串口连接CSP(Common S

文档评论(0)

wyj199216 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档