_资料认识高性能计算机.doc

下载文档

3
0
约6.37千字
约 4页
2018-05-24 发布于河南
举报
版权申诉
保障服务

_资料认识高性能计算机.doc

1、本文档共4页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

_资料认识高性能计算机

[资料]认识高性能计算机随着对高性能计算需求的增加，面对众多的高性能计算机产品，如何选择适合自己的计算机系统成为用户面对的重要问题。本文将从几个方面对科学计算领域中高性能计算机的评价进行初步的探讨。? ?一、CPU、主频、峰值速度及TOP500排名? ?CPU作为计算机的核心部件一直被给予最大的关注。现在标量处理器通常可分为三类：复杂指令集CISC（代表为Intel Pentium, Xeon），精简指令集RISC(代表为IBM Power, HP PA-RISC, Compaq Alpha, SUN Ultra-SPARC, SGI MIPS)及显式并行指令集EPIC(代表为Intel IA-64)。CISC为程序员提供了丰富的指令集（200条以上），所以对编译器的设计要求不高，可以用较为简单的编译器系统去生成CISC执行程序。但是复杂的指令系统存在芯片设计复杂、功能部件少，耗电量大等缺点。根据对大量实际应用程序的统计，常用的指令就只有十几条，这也是RISC芯片的设计基础。RISC芯片中通常集成了较多的功能部件，利用强大的编译系统使多个功能部件并行执行，并采用流水线(pipeline)、指令乱序(out-order)等设计使CPU的性能得以充分发挥。目前RISC芯片是高性能计算机的主流芯片，其中以IBM的Power处理器最为成功，并有长期、持续的发展计划。而其他厂商（如HP和SGI）正逐渐放弃对RISC芯片的发展，转向EPIC类型的Intel Itanium产品。与RISC芯片相似，EPIC芯片结构的设计目标也是指令的并行化，以获得最优的性能。但是与RISC芯片不同，EPIC芯片由编译器去决定如何将指令并行化，以何种方式、何种顺序执行指令，然后交给硬件去执行。而RISC系统则直接将指令交给硬件，由硬件去决定如何做并行、如何做Pipeline。所以两种指令系统存在本质的差别，我们不能期望一个具体的应用程序不经过优化、再编译就能在两种系统上获得同样高的性能。所以HP要将PA-RISC和Alpha上的应用移植到Intel Itanium2上，并获得同样高的性能将是一项非常艰巨的任务。同时，与RISC相比较，EPIC性能的发挥更依赖于编译器的设计，而Intel一直以CISC芯片为主要产品（如前所述，CISC芯片对编译器的要求最低），在编译器的开发上经验不足。虽然与HP进行合作开发，但其编译器的表现仍有很大的提升空间。有经验表明，当同样的应用程序分别在HP-UX，Linux系统下编译，同样运行在Itanium2的系统上时，在HP-UX下的性能要优于Linux的性能。当对同样采用Intel Itanium2的HP rx5670和SGI的Altix进行比较时，HP产品的性能也会好于SGI的产品，这也应归功于编译器的表现。? ?经常与CPU同时被提及的就是它的主频。很长时间以来，主频以其直观的数据特点成为计算机用户判断CPU性能的指标。但主频只有在同种类型的CPU中比较才具备一定的参考价值。? ?总的来讲，单纯从CPU的角度选择系统要考虑以下几点：? ?1. ?该CPU是否有长远、持续的发展计划；? ?2. ?该CPU在同类处理器中的地位如何；? ?3. ?编译系统及相应的开发环境；? ?4. ?用户的具体应用是针对哪种类型的指令系统上开发的，因为只有该指令系统才能充分发挥处理器的性能；? ?5. ?如果要将应用运行在新的CPU上，程序移植的工作量如何，是否有ISV愿意或已经做了相应的移植工作。? ?另外一个经常被用来评价计算机性能的简单指标是峰值速度。计算机的峰值速度通常是指其理论峰值速度，其计算公式是：? ?理论峰值速度（亿次）= （CPU的主频）MHz x 每个时钟周期执行浮点运算的次数 x CPU数目/108? ?其中MHz是指CPU的主频，每个时钟周期执行浮点运算的次数是由处理器中浮点运算单元的个数及每个浮点运算单元在每个时钟周期能处理几条浮点运算来决定的。以IBM POWER4为例，每个POWER4的处理器有两个浮点运算单元，每个浮点运算单元在一个时钟周期内可以同时处理一个加法和一个乘法的操作。所以如果处理器的主频为1.7GHz（POWER4+），那么该处理器的峰值速度为1.7G＊2＊2=6.8Gflop/s，或68亿次/秒。对于满配置的IBM p690来说，该系统的峰值速度就是1.7G＊2＊2＊32=217.6Gflops，或2176亿次/秒。不同的处理器每个时钟周期能执行浮点运算的次数不同。? ?峰值速度在一定程度上能够反映处理器的性能，但并不能代表计算机的实际运算能力。为此许多组织试图用一些标准的程序来测试计算机的运算速度，其中LINPACK以其使用简单、适用性强等特点被广泛地用于评价计算机的实际