- 1、本文档共124页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
16.5.1 集群的配置 作为集群的一种方法,每台计算机都是一台独立服务器,具有自己的磁盘,但系统之间没有共享的磁盘,见图16-15 a)。这种安排方式提供了高性能和高可用性,它需要某种类型的管理或调度软件来将客户请求分派给服务器,以达到负载平衡和获得较高利用率的目的。这种方法非常需要故障转移能力,即当某台计算机在执行一个应用程序时发生了故障,集群中的另一台机器可以接替该计算机片完成该应用。为了达到这一目的,数据必须经常地在系统之间进行复制,这样,每个系统访问的才是其他系统的当前数据。由于数据交换产生了一些开销,从而以性能的降低为代价保障了系统的高可用性。 16.5.1 集群的配置 为了减少通信开销,现在的很多集群都是由连接到公共磁盘的服务器组成的,见图16-15 b)。这种方法带来的变化简单地称为不共享。公共磁盘被分成若干卷,每个卷由一台计算机占用,如果一台计算机发生故障,则集群必须重新配置,使其他计算机拥有对发生故障的计算机的卷的所有权。 让多台计算机同时共享相同的磁盘也是可以的,称为共享磁盘方式,这样,每台计算机具有对所有磁盘上的所有卷的访问权。这种方法需要使用某种类型的上锁机制,以确保数据在某一时刻只能被一台计算机访问。 16.5.2 操作系统的设计问题 完全开发集群硬件配置需要增强单系统操作系统的某些功能。 故障管理 集群怎样管理故障取决于所使用的集群方法。总的来说,有两种方法可以用于处理故障:高度可用的集群和容错集群。一个高度可用的集群能以较高的概率使所有资源用于服务。如果真的发生故障,例如某一系统停机或丢失了一个磁盘卷,则正在进行的询问将丢失。如果执行重试操作,那么任何丢失的询问将由集群中的另一台计算机来服务。然而,集群操作系统并不保证事务的部分执行状态。这将需要在应用级进行处理。 16.5.2 操作系统的设计问题 容错集群保证所有资源总是可用的。这可以通过使用冗余共享磁盘和取消未完成事务及接受已完成事务的机制来完成。 将应用程序和数据资源从发生故障的系统交换到集群中另一系统上的功能称为故障转移。相关的一个功能是,一旦原系统已被修复,则将应用程序和数据资源恢复到原来的系统,这称为故障恢复。故障恢复可以自动进行,但只有在问题真的被修复且不会再发生时,才是真正的故障修复。否则,自动故障恢复可能导致后续发生故障的资源在计算机之间来回反弹,从而导致性能和恢复问题。 16.5.2 操作系统的设计问题 负载平衡 集群需要在可用的计算机之间平衡负载的有效能力,当集群规模扩大时也要求执行负载平衡。当一台新的计算机加入集群时,负载平衡机制应能够自动地在应用调度时包括这台计算机。中间件机制需要识别出可以出现在集群中的不同成员上的服务,并且可以将服务从集群中的一个成员转移到另一个成员上。 16.5.2 操作系统的设计问题 并行计算 在某些情况下,对集群的有效使用要求并行地执行一个单一应用的软件。有三种解决该问题的常用方法: 并行编译器:并行编译器在编译时决定了应用程序的哪一部分可以并行地执行。这些部分然后被分开,分派到集群中的不同计算机上。性能取决于问题本身及编译器设计的好坏。 并行应用:在这种方法中,程序员在编写应用程序时,从开始到运行的过程中都要考虑在需要的时候,使用消息传递机制,将数据在集群的不同节点上移动。这将给程序员带来很重的负担,但这也许是针对某些应用程序开发集群的最好方法。 16.5.2 操作系统的设计问题 参数计算:在这种方法中,应用程序基本上是一个必须执行多次的算法或程序,而每次都有不同的条件或参数。仿真模型是一个很好的例子,它将运行大量不同的场景并开发结果的统计摘要。为了使这种方法更加有效,需要参数处理工具来按照顺序组织、运行和管理作业。 16.5.3 集群计算机的体系结构 图16-16给出了一个典型的集群体系结构。独立的计算机通过某种高速局域网或交换硬件设备连接起来。每台计算机都能够独立地运行。另外,每台计算机上都安装了一个中间件层的软件以支持集群操作。 图16-16 集群计算机体系结构 16.5.3 集群计算机的体系结构 集群中间件为用户提供了统一的单一系统映像,也负责提供高可用性保证,其方法是依靠负载平衡和对独立组件故障的响应。集群中间件服务和功能包括: 单一入口点:用户登录到集群,而不是登录到一台独立的计算机。 单一文件层次:用户在同一根目录下看到的是单一层次的文件目录。 单一控制点:有一台默认的工作站用于集群管理和控制。 单一虚拟网络连接:任一节点都可以访问集群中的任何其他节点,即使实际的集群配置可能由多个互联网络所组成。只存在一种虚拟网络操作。 16.5.3 集群计算机的体系结构 单一存储空间:分布式共享存储器使程序能够共享变量。 单一作业管理系统:在一个集群作业调度器下,用
文档评论(0)