Linux高性能集群 - 硬件和网络体系结构.docVIP

Linux高性能集群 - 硬件和网络体系结构.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Linux高性能集群 - 硬件和网络体系结构

Linux高性能集群 - 硬件和网络体系结构 级别: 初级 金戈 (jinge@), IBM软件工程师, IBM 2002 年 11 月 20 日 本文是高性能集群系列文章的第三部分。在本文中,笔者以IBM eServer Cluster 1300为例介绍了Beowulf集群中硬件和网络体系结构和组成部分。 1 Beowulf集群硬件和网络体系结构 图 1是Cluster 1300的硬件和网络体系结构图 图 1是Cluster 1300的硬件和网络体系结构图。从图中可以看出,整个系统由5类计算或网络设备和5类网络组成。这5类设备是: 主控制节点(Control Node) 计算节点 以太网交换机(Ethernet Switch) Myrinet交换机 Terminal Server 5类网络是: 集群局域网(Cluster VLAN蓝色) 管理网络(Management VLAN 右边绿色) IPC网络(IPC VLAN 棕色) Terminal网络(灰色) Service Processor网络(左边绿色) 本文的以下部分将介绍这些设备和网络的角色,功能和一般的配置。 回页首 2 Beowulf集群中的节点 这一节主要介绍Beowulf集群中的节点,节点的类型和相应的功能。根据功能,我们可以把集群中的节点划分为6种类型: 用户节点(User Node) 控制节点(Control Node) 管理节点(Management Node) 存储节点(Storage Node) 安装节点(Installation Node) 计算节点(Compute Node) 虽然由多种类型的节点,但并不是说一台计算机只能是一种类型的节点。一台计算机所扮演的节点类型要由集群的实际需求和计算机的配置决定。在小型集群系统中,用户节点、控制节点、管理节点、存储节点和安装节点往往就是同一台计算机。下面我们分别解释这些类型节点的作用。 2.1 用户节点(User Node) 用户节点是外部世界访问集群系统的网关。用户通常登录到这个节点上编译并运行作业。 用户节点是外部访问集群系统强大计算或存储能力的唯一入口,是整个系统的关键点。为了保证用户节点的高可用性,应该采用硬件冗余的容错方法,如采用双机热备份。至少应该采用RAID(Redundant Array of Independent Disks)技术保证用户节点的数据安全性。 2.2 控制节点(Control Node) 控制节点主要承担两种任务 为计算节点提供基本的网络服务,如DHCP、DNS和NFS。 调度计算节点上的作业,通常集群的作业调度程序(如PBS)应该运行在这个节点上。 通常控制节点是计算网络中的关键点,如果它失效,所有的计算节点都会失效。所以控制节点也应该有硬件冗余保护。 2.3 管理节点(Management Node) 管理节点是集群系统各种管理措施的控制节点: 管理网络的控制点,监控集群中各个节点和网络的运行状况。通常的集群的管理软件也运行在这个节点上。 ASMA的控制点:ASMA(Advanced System Manager Adapter)允许将计算节点通过菊花链连接构成Service Processor网络用于接受计算节点的警报并收集SNMP Trap. 2.4 存储节点(Storage Node) 如果集群系统的应用运行需要大量的数据,还需要一个存储节点。顾名思义,存储节点就是集群系统的数据存储器和数据服务器。如果需要存储TB级的数据,一个存储节点是不够的。这时候你需要一个存储网络。通常存储节点需要如下配置: ServerRAID保护数据的安全性 高速网保证足够的数据传输速度 2.5 安装节点(Installation Node) 安装节点提供安装集群系统的各种软件,包括操作系统、各种运行库、管理软件和应用。它还必须开放文件服务,如FTP或NFS。 2.6 计算节点 计算节点是整个集群系统的计算核心。它的功能就是执行计算。你需要根据你的需要和预算来决定采用什么样的配置。理想的说,最好一个计算节点一个CPU。但是如果考虑到预算限制,也可以采用SMP。从性价比角度说,两个CPU的SMP优于3或4个CPU的SMP机器。 因为一个计算节点的失效通常不会影响其他节点,所以计算节点不需要冗余的硬件保护。 2.7 集群中节点的部署 虽然由多种类型的节点,但并不是说一台计算机只能是一种类型的节点。一台计算机所扮演的节点类型要由集群的实际需求和计算机的配置决定。在小型集群系统中,用户节点、控制节点、管理节点、存储节点和安装节点往往就是同一台计算机,这台计算机通常成为主节点(Master Node)。在这种情况下,集群就是由多个计算节

文档评论(0)

xjj2017 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档