基于VCS集群技术系统故障分析.docVIP

  1. 1、本文档共12页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于VCS集群技术系统故障分析

基于VCS集群技术系统故障分析   【摘要】本文详细分析了基于VCS集群技术的省级气象通信系统的一次故障实例,描述了本次系统故障中的硬件、软件问题,对重点集群故障问题分别从VCS集群体系架构、集群系统的启动过程、集群故障检查、故障解决方案等方面进行了循序渐进地阐述。省级气象通信系统是部署在各省气象局的气象数据通信传输业务系统,它采用赛门铁克VCS(VERITAS Cluster Server)集群技术完成了气象数据传输、数据处理和系统监视等几大功能,并实现了气象通信系统的高可用性、易扩展性,提升了数据的处理能力与传输能力。文章简单介绍了集群CFS、CVM、HAD、IO Fencing、GAB、LLT等体系架构,根据集群架构、集群系统的启动顺序逐步检查集群心跳状态,端口状态;详细分析了集群故障原因,判断集群GAB中的v,f端口未能正常启动,即Cvm,cfs未能启动;由此提出了该系统故障的解决步骤,首先停止整个集群,再逐步启动集群,分别查看集群端口的启动状态,同时查看磁盘链路的状态,监控导致集群故障的源头——HP阵列主控制器的HBA卡故障,最终通过更换HBA卡,问题得以解决。   【关键词】集群;GAB;故障   1.前言   目前,省级气象通信系统是继气象9210工程以后国内气象通信系统的重要升级,它是中国气象局气象信息中心在新的形势下开发完成的能够适应现有气象资料传输、处理和监视需求的新一代气象信息系统。省级气象通信系统部署在各省气象局的气象数据通信传输业务系统,它采用赛门铁克VCS(VERITAS Cluster Server)集群技术,搭建由6台PC服务器通过两个光纤交换机与两台磁盘阵列存储系统连接构成高可靠负载均衡集群系统(如图1所示),实现省级气象数据传输、通信数据处理和数据通信业务监控等几大功能。   省级气象通信系统环境由六台服务器组成,阵列为HP MSA2000和EMC CX240,OS平台为SUSE 10 SP2,SFCFS版本为SFCFS5.0MP3,所有服务器通过集群文件系统共享阵列上的存储空间,共有三个文件系统,6个数据卷,其分布如图2所示。   文件系统:/behf,六个节点可以访问,大小为1TB,用于存放FTP和CMACast接收到的数据,需要behf和behf_bak两个数据卷   文件系统:/share,四个节点可???访问,大小为1.3TB,用于存放经过整理后的对外服务数据,需要share和share_bak两个数据卷   文件系统:/mosdb,四个节点可以访问,大小为400GB,用于存放数据库的数据,需要mosdb和mosdb_bak两个数据卷   6台服务器组成一个集群系统,通过集群文件系统使得6台服务器能够同时访问一个文件系统,实现业务数据的快速交换。   4台DL380G5组成一个逻辑集群,4台服务器全部配置运行LVS、FTP和www服务,其中两台还需要添加MySQL和Tomcat服务。向外提供统一的FTP、www、MySQL和Tomcat服务。   2台X3650组成另一个逻辑集群,实现DVB数据接收应用的高可用管理。   2.故障实例分析   2.1 故障现象描述   省级气象通信系统的web监控网页不能正常登录。查看系统硬件设备发现,HP MSA200磁盘阵列的第一块硬盘红灯告警,阵列右边侧最上面两个告警提示灯是为红色,系统背面板电源模块红灯告警。查看文件系统发现/behf系统卷未发现,系统运行不正常。   试图执行备份脚本启动备份系统,切换至EMC磁盘阵列失败,备份系统不能正常接管。检查系统发现/dev/vx/dsk/目录下没有任何目录卷信息。采用vxdisk path命令查看磁盘链路状态,发现所有链路状态都是disabled,并且HP磁盘阵列的每个盘只有两条链路。磁盘阵列上两块电源模块有告警灯。   2.2 故障原因分析   2.2.1 一般故障分析   根据硬件设备HP MSA200磁盘阵列的第一块硬盘红灯告警,可判断其中一块磁盘故障。两块电源模块有告警灯,判断阵列电源模块故障,两处硬件问题需及时联系HP公司更换。注意到两块电源模块都告警但系统仍然处于待电状态判断该电源模块的硬件应该是正常工作状态,告警提示应该是电源模块的软件告警。对于HP的每个盘只有两条链路判断可能阵列的控制器有一块故障。磁盘链路disabled状态和文件系统运行不正常的问题,初步认为是集群故障。下面对这个主要问题作出详细的分析解决。   2.2.2 集群故障分析   1)VCS集群体系架构:   Service group/Agent管理应用的启动停止监控。   Cluster File System(CFS)全局锁管理器、Cache coherency、分布式锁管理器。   Cluster Vol

文档评论(0)

317960162 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档