- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
故障诊断分析
故障诊断分析
1、相关定义
1.1、大型高性能计算机集群概念和作用
25 年前,大型昂贵的定制化超级计算机主导了高性能计算(High Performance Computing,HPC)服务器市场。进入新世纪后,高性能计算机系统建设由工作站、 小巨机转向以高性能计算集群(HPC Cluster)为主。2002 年开始,基于标准的集 群架构开始快速增长,2009 年,基于标准化的集群架构以 86 亿美元占据 64%的市 场份额,成为 HPC 服务器市场的独秀。据 IDC 预测,基于标准化集群架构的市场 3 将在 2014 年超过 100 亿美元。集群架构兴起的时代,HPC 的市场特征主要表现为 两个方面:一方面,许多大型的 HPC 用户将会不断扩大其 HPC 集群以满足计算的 需求;另一方面,HPC 集群的兴起让 HPC 的发展日趋平民化,HPC 不再是政府和 研究机构的专利,许多中小型的组织也可以开始使用,例如许多高校的一些院系 和实验室都开始使用 HPC 进行学科的研究等等。 集群并不是一个全新的概念,其实早在七十年代计算机厂商和研究机构就开 始了对集群系统的研究和开发。由于主要用于科学工程计算,所以这些系统并不 为大家所熟知。直到 Linux 集群的出现,集群的概念才得以广为传播。源于集群系 统的良好的性能可扩展性(scalability)。提高 CPU 主频和总线带宽是最初提供计算 机性能的主要手段。但是这一手段对系统性能的提供是有限的。接着人们通过增 加 CPU 个数和内存容量来提高性能,于是出现了向量机,对称多处理机(SMP)等。 但是当 CPU 的个数超过某一阈值,象 SMP 这些多处理机系统的可扩展性就变的 极差。主要瓶颈在于CPU访问内存的带宽并不能随着CPU个数的增加而有效增长。 与 SMP 相反,集群系统的性能随着 CPU 个数的增加几乎是线性变化的。 集群系统是由计算、管理、存储等服务器,通过内部高速网络(千兆网、 InfiniBand 网)互联组成,在其上运行开源(或定制)的软件系统。通过不同层次 的系统软件,使各类服务器、存储设备、网络等能够协调、可靠、高效地完成计 算任务,对用户而言,就如同使用单一的计算机一样。大型集群往往由多种部件 组成,结构比较复杂,涉及的硬件和软件技术面也比较广,比如硬件包括配电、 计算节点、管理节点、存储节点、高速数据交换网络、管理网络、监控网络、存 储阵列(一级高速存储阵列、二级大容量存储阵列)等(如图 1-4);软件包括操 作系统、集群管理系统、编译系统、并行环境系统、资源调度和作业管理系统、 监控软件系统、备份恢复系统等(如图 1-5)。根据集群系统的不同特征可以有多 种分类方法,但是一般普遍把集群系统分为两类: 高可用(High Availability)集群, 简称HA集群。这类集群致力于提供高度可靠的服务。高性能计算(High Perfermance Computing)集群,简称 HPC 集群[1]。这类集群致力于提供单个计算机所不能提供 的强大的计算能力。 4 图 1-2 中国 天河一号 Tianhe-1A(2.57 千万亿次/秒),位于天津超算中心 TOP2 图 1-3 中国 星云 Nebulae (1.27 千万亿次/秒),位于深圳超算中心 TOP4 5 图 1-4 集群硬件体系结构示意图 图 1-5 集群软件体系结构示意图 集群内所有的计算机拥有一个共同的名称。集群系统内任意一台服务器都可 被所有的网络用户所使用。一台服务器集群包含多台拥有共享数据存储空间的服 6 务器,各服务器之间通过内部局域网络互相进行连接。一般而言,群集和高可用 性结合的服务器可将运行可靠性提升至 99.99%。就好似冗余部件可以使用户一定 程度免于硬件故障一样,集群技术可以使用户免于整个系统的瘫痪以及操作系统 和应用层次的故障:即使其中一台服务器发生故障,其运行程序停顿将不会影响 其他服务器运行。集群技术不仅仅能够提供更长的运行时间,同样在尽可能地减 少与停机有关的机时方面也有着重要意义。例如,集群管理员可以在关闭某一台 服务器的同时,不用将该服务器与集群完全断开即可进行应用、硬件甚至操作系 统的”流动升级”。集群系统通过功能整合和故障过渡技术实现系统的高可用性 和高可靠性,集群技术还能够提供相对低廉的总体拥有成本和强大灵活的系统扩 充能力。 集群以高性能、高性价比、高可用性、高扩展性、工业标准化、制造相对容 易、软件丰富、应用广泛为其特点获得了快速发展。目前在高性能计算机系统计 算能力前 500 强列表上大部分是集群体系结构。可由表 1-1 看出集群(cluster)占 有比例相当高。 表 1-1 当时 Top500 中 cluster 体系结构占总数百分比 年份 2006
文档评论(0)