集群建议.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
集群建设 集群系统是由硬件系统,操作系统,集群管理系统,以及应用组成的。在集群建设中最需要关注的是应用的特点(计算密集型\通讯密集型\计算通信密集型)及集群的管理维护,来关于集群的管理维护,在设计方案时要给予足够的重视需要有方便高效的设备维护以及负载监控功能,这些可以大大降低集群管理的工作强度。 这里把集群建设分为了前、中、后三个部分,分别阐述集群建设各个阶段需要注意的问题。 硬件系统的组成: 硬件部分主要包含机柜、服务器、交换机、KVM、UPS、网络线缆、磁盘阵列、空调系统等,其中最重要的是服务器和交换机的选择。 机架式集群系统硬件架构图 1〉服务器的选择:中大型集群系统通常会选择机架式服务器或刀片服务器。 刀片服务器:体积小、结构紧凑、系统布线简单、所需的网线/电源少。由于没有统一的,各厂家的产品规格各不相同,不能通用,而且市场上也没有通用的产品,所以如果用户需要升级或者集群出现故障的话,只能和原厂商联系,升级维护成本比较高。因为刀片服务器密度比较高,对于机房散热条件要求比较高。机架式服务器在通用性、散热等方面存在的问题较刀片服务器少,机器的通用性比较高,升级维护较简单,互部分可以根据将来技术的发展升级,硬盘等配件也可以升级换代,无须依赖厂家的专有设计,但是需要的机房面积比较大,布线复杂。 2〉集群系统互连:并行计算的延时绝大部分来自于通讯。主流的系统互连有InfinibandMyrinet和千兆以太网。一般一套集群系统会配备两套网络,一套用于系统管理,一套用于计算通讯、数据存储,可以避免管理与计算之间的。 专用的高速通信网络,如Infiniband是新一代主流高速互连网络,它采用点对点互连,静态ROUTER,不采用TCP/IP协议,所以延迟、带宽方面有很大优势。目前主流带宽为0Gb/s。。Myrinet也是专用的高速通信网络Infiniband,所以一般不建议采用。 千兆以太网交换机的成本比较低,性能与Infiniband相比有比较大的差距, 3〉UPS的选择: 与PC机不同,服务器要求有稳定的供电系统,因此UPS对于集群的稳定工作和延长服务器的工作期限是有很大帮助的。UPS有在线式、后备式、在线互动式。因为在线式的稳频性最高,所以建议采购 UPS的额定功率应超过负载集群总功率的1.5倍,否则长时间超负荷工作对UPS有极大损耗。 国内在夏、冬两季会出现用电高峰断电的问题,由于UPS的功率越大,价格越高,所以空调系统一般不接在UPS上,在断电后,服务器继续工作,而空调已经停止工作,服务器温度会不断升高,极易引起服务器故障。而且,在UPS电池电力耗尽之前,管理人员如果不能及时赶到现场,电力耗尽会引发集群突然断电,不但会中止正在运行的程序,而且极易损坏服务器。开发了断电保护功能,能够在检测到市电中断后,在用户指定的时间段内安全的关闭集群计算节点。UPS也进行考察,看是否配备SNMP开发包和网络管理卡。 4〉空调系统的选择: 一般国内的HPC系统集成商会认为空调不是自己应该关注的范畴,用户自己能够解决。但是,如果配备的空调制冷能力和稳定性不足,往往会引发大麻烦。 机房内的空调一般要做到7x24小时不间断工作,所以选择空调时一定要选择稳定性比较高,的空调。工业用空调一般能够满足需求,但比较贵,民用。 2、 软件:软件包括OS、集群管理软件、编译器等 1〉OS的选择: Linux操作系统得到IBM、Intel、AMD、SGI、HP等厂家支持,世界超级计算机500强里有%的系统采用Linux。欧美的一流实验室中的并行计算系统基本都采用了Linux,如果用户有经常性地对外学术交流的机会,使用Linux会获得更多地认同,也降低了用户将来系统的风险。 2〉集群管理软件的选择: 集群管理是一件复杂的事情,实验室通常不会设置专门的技术维护人员。国内常见的方式是有一个老师牺牲自己的时间兼职管理,在目前计算机硬件和软件系统发展得如此迅速的背景下,管理员的压力非常大,要不断学习系统维护方面的软硬件知识。的集群管理软件,提供自动化的管理手段可以降低管理员系统维护。 3〉编译器的选择 硬件和操作系统确定后,如用户的应用是,选择好的compiler、数学库和优化的编译选项,有时候会大幅度地缩短计算时间,就相当于用户购买了更多的机器。 3、其他问题 1〉集群的使用模式:多少用,应用程序是并行还是串行,对于集群使用有无特殊要求(如专门划出一部分区域给一部分人用等问题)。UPS的重量。是否需要对于楼板进行加固设计或减少压强。 4〉散热:对于集群散热的解决方案,空调的配置,空调位置的摆放,整个房间里气流方向对于散热的影响。 5〉噪音:考虑机房的噪音控制。 6〉管理:是否安排有专人管理集群。 1.搭建集群: 硬件部分:机柜、服务器、交换机、KVM、UPS、网络线缆

文档评论(0)

fc86033 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档