- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
GPFS 在 Linux 集群中的灾难恢复
GPFS 在 Linux 集群中的灾难恢复
灾难恢复是当前存储技术领域的热点之一。GPFS (General Parallel File System) 作为一个支持多节点的并行文件系统,在其长期运行过程中可能遇到各种问题(软件问题和硬件问题)而造成其中的某些节点不能正常工作。GPFS 提供了强大的功能来进行灾难恢复,以确保数据安全。本文根据 GPFS 的容灾特性提出了两种灾难恢复 ( disaster recovery) 的解决方案。一是将问题节点从 GPFS 集群中移除,使 GPFS 集群在剩下的健康节点上继续工作;二是重新安装配置问题节点,再对原有 GPFS 集群进行恢复,使其健康运行。采用这两种解决方案都可以快捷地恢复 GPFS 系统,从而保证整个 GPFS 集群正常的工作。最后,以实例的形式给出了详细的实现步骤以及实例分析。
GPFS 文件系统相关介绍
IBM General Parallel File System(GPFS) 是高性能、可扩展、并行文件系统。通过它,可以构建一个高可用、高性能的大型 Linux 计算机集群。GPFS 提供了强大的灾难恢复功能。从而,通过 GPFS 可以构建高可用的 Linux 集群。
GPFS 文件系统
GPFS 是一个并行的共享磁盘文件系统,它保证在资源组内的所有节点可以并行访问整个文件系统。GPFS 允许客户共享文件,而这些文件可能分布在不同节点的不同硬盘上。它提供了标准的 UNIX 文件系统接口。GPFS 能够很好的支持 UNIX 文件系统的工具,用户可以在 Linux 集群中像使用普通文件系统一样使用 GPFS 文件系统。它可以很好的应用在 Linux 集群中。
GPFS 节点可能发生的问题
GPFS 是由多个节点组成的集群系统,我们在 GPFS 长期运行过程中,可能有软件问题,比如集群中某个节点 GPFS 文件系统崩溃;也可能有硬件问题,比如系统磁盘坏掉,这样就会导致集群中某个节点不能工作。这些问题在 GPFS 集群长期运行过程中都是很可能遇到的问题,在遇到这种问题后,我们执行“mmgetstate – a”就会发现问题节点的状态不正常。状态“active”表示正常,其他状态都是异常。
node1:~ # mmgetstate -a
Node number Node name GPFS state
------------------------------------------
1 node1 active
2 node2 active
3 node3 unknown
用户针对这种情况都想尽快能够恢复整个集群的正常工作,把坏掉的节点尽快恢复工作。
GPFS 文件系统的灾难恢复(容灾特性)
GPFS 文件系统提供了很多特性可以来支持 GPFS 文件系统在发生问题时能够很好的进行灾难恢复使整个集群继续工作。首先 GPFS 是一个支持多节点的并行式文件系统,整个集群采用网络共享磁盘的方式,当其中任何一个节点发生问题时,其它节点能够及时接管问题节点的任务,从而保证整个集群能够继续工作。这样保证在集群中的其它节点健康的情况下可以及时接管问题节点的任务,我们可以尽快对问题节点进行恢复。
Linux 集群中 GPFS 灾难恢复方法及相关命令简介
我们通常在采用 GPFS 的 Linux 集群中某个节点发生硬件或者文件系统崩溃而不能正常工作时,那么整个集群中就会出现问题的节点。为了使原来的集群的所有节点都能健康的工作,我们可以有两种方法:一是把坏掉的节点从原有的集群中移除掉;二是把坏掉的节点的硬件问题解决之后重装该节点,并重新添加进 GPFS 集群中。下面我们来分别介绍两种方案。
方案一:通过移除 GPFS 问题节点来恢复
方案描述:
如果集群中有节点的硬件或者软件发生严重问题时,我们可以先把该节点从整个集群中移除掉,这样集群中就没有这个坏掉的节点,我们可以通过“mmgetstate – a”得到所有的节点都是“active”的状态。
方案流程 :
我们要从集群中移除掉坏掉的节点,就要改变记录整个 GPFS 集群配置信息的文件,把坏掉节点的信息删除,使 GPFS 集群中都没有坏掉节点的信息,这样这个坏掉节点就能够删除掉了。如下图所示,我们可以看到图中,本来三个节点的 GPFS 集群中,第三个节点坏了,我们把该问题节点移除后就成为一个只包含两个健康节点的集群。
图 1. 移除 GPFS 问题节点流程图
方案二:通过重装问题节点来恢复
方案描述:
当然还有另外一种方法就是,无论问题节点是
原创力文档


文档评论(0)