Linux环境下集群系统资源管理.doc

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Linux环境下集群系统资源管理

Linux环境下集群系统资源管理   【摘要】随着计算机网络的发展及大规模科学计算如气象预报、自动化处理较高单位等对服务器的性能要求越来越高,对计算机的性能提出了更高的要求:需要硬件有灵活的可扩展性,关键性的模块需要可靠的容错机制。计算机集群系统具有处理速度快、I/O吞吐量大,容错性好、可靠性高,而且还具有良好的可扩展能力等诸多优点,因此成为了当前的主流。本文叙述了集群系统的资源的管理和分配。 【关键词】LINUX;集群系统;资源管理 1.集群系统概述 集群是一组通过高速网络互联的相互独立的计算机的集合,配以专门软件以单一系统的模式加以管理。在用户看来,它是运行在一系列自治处理单元上的普通系统,每个结点有各自物理内存空间并通过高速链路或者标准化网络连接,实现对同一任务的协同计算。当一个用户与集群相互作用时,集群就像是一个独立的服务器。和传统的高性能计算机技术相比,集群技术可以利用各档次的计算机作为节点,不仅系统造价低,还可以实现很高的运算速度,完成大运算量的计算,能够逐步满足当今日益增长的超大数据量的石油物探处理需求。系统保持了分布式客户机/服务器模式的开发性、可扩展性的优点,同时又具备了终端/主机模式的资源共享和集中易于管理的优点。相对集中的集群系统,降低了系统管理的成本,而且还提供了和大型服务器系统相媲美的处理能力。高可用和高性能是集群服务器系统的两个重要特性。 2.集群系统(CLUSTER)的特点 集群系统使由完整的计算机互联组成一个统一的计算机系统具有极高的性能价格比。它需要专有软件的支持,比如支持集群技术的操作系统或数据库等,硬件方面可以根据不同实际需求,采用现成的通用硬件设备或特殊应用的硬件设备。集群系统中可以动态地加入新的服务器和删除需要淘汰的服务器,具备很强的可扩展性,从而能够最大限度地扩展系统以满足不断增长的应用的需要;另外,要求集群系统具有可用性,即能够为用户提供不间断的服务,当系统中的一个结点出现故障的时候,整个系统仍然能够继续为用户提供服务。 3.集群系统的分类 集群系统可分为高可用性集群和高性能集群。高可用性集群的主要功能就是提供不间断的服务。高性能集群通过将多台机器连接起来同时处理复杂的计算问题,如模拟星球附近的磁场、预测龙卷风的出现、定位石油资源的储藏地等情况都需要对大量的数据进行处理。传统的处理方法是使用超级计算机来完成计算工作,但是超级计算机的价格比较昂贵,而且可用性和可扩展性不够强,因此集群成为了高性能计算领域瞩目的焦点。 4.集群系统的资源管理 系统资源是作业运行的基础,这些资源包括集群的硬件资源和软件资源,硬件资源是软件资源的基础。本系统是构建在操作系统上的,只对本系统所涉及的范围进行分析。计算节点资源的利用率是系统性能的重要指标,资源利用率越高说明系统处理作业的计算能力越大,集群中的资源的有效利用程度直接影响系统中的作业运行效率,所以必须对集群中的所有可用资源进行有效管理,从而为资源分配和作业调度提供决策依据。服务器与计算节点上都有一个资源对象管理进程,它们所管理的资源内容与范围是不同的。服务器对象管理进程对整个集群系统中所有计算资源进行统一管理,包含集群中所有的节点信息与作业信息。计算节点对象管理进程只对此节点上的计算资源进行管理,包含此节点上的资源信息与作业信息。 调配硬件资源,合理分配给每个项目的每一个用户,一直是我们系统管理员的工作中的重要课题。某单位现拥有四套曙光集群和一套超微集群。全部运行在RedHat Server4.6/5.3之上,主要设备如表1所示。 从系统组成角度说,集群系统是由多台计算机组成的超级计算机。但是从最终用户看来,集群系统是一台计算机,也就是说,集群系统的构成对用户是透明的。所以集群系统的管理的目的就是让集群系统象一台计算机一样利于管理和使用。 工作中我们发现一些问题: (1)业务单位资料的运算处理通常伴随着大容量的数据存取,由于数据量非常的大,所以只能存储在一块共用的硬盘阵列上,并由专门的I/O节点来管理存储。当需要更多的计算节点来并行计算以提升运算速度的时候,由于同时对I/O节点进行数据读写访问,当I/O传输达到的上限,过多的访问申请反而会造成数据的拥堵。 (2)由于盘阵的容量相对较大,通常分成不同的卷,而在外部用户来看,他们并不知道使用的卷具体位置在哪,所以会出现,一个盘阵由于划分了多个卷,每个卷存储多个项目的现象。 (3)直接在I/O服务器上启动软件服务和工作窗口,并且调度其他计算节点并行作业;I/O服务器本身负荷就相当大,它要提供其他节点的数据读写访问和传输服务,不但要给自己读写数据,它所控制的子节点也需要对它所挂载的盘阵并行读写,反而造成拥堵。 经

文档评论(0)

docman126 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:7042123103000003

1亿VIP精品文档

相关文档