2009并行计算及多核程序设计17-18OpenMP研讨课.pptVIP

下载本文档

1
0
约1.28万字
约 39页
2017-09-11 发布于河南
举报
版权申诉

2009并行计算及多核程序设计17-18OpenMP研讨课.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

2009并行计算及多核程序设计17-18OpenMP研讨课

* 研讨话题 OMP与多线程的效率对比 * 研讨话题结合高性能计算实例，分析OMP对核的利用率 * 超级计算机Super Computer 厂家 IBM、HP / 用途需要大量运算的工作，如天气预测、气候研究、运算化学、分子模型、物理模拟、密码分析等等超级计算机操作系统 UNIX变种提高系统的资源利用率编程语言由于Fortran运行比C或C++的更快，所以被选用作科学编程标准的应用编程接口（如信息传递接口及并行虚拟机器） * 魔方（曙光5000A）超级计算机系统软件采用基于多核CPU的星群体系结构支持OpenMP（节点内）、MPI以及两者混合编程三种编译器均支持OpenMP GNU GCC 支持C, C++, Objective-C, Fortran, Java等 -fopenmp Intel编译器套件支持C/C++，F77/F90/F95，HPF，Java -mp PGI编译器套件为Portland公司，支持C/C++，F77/F90/F95，HPF，Java -openmp * 全机系统被分成三个部分即A、B、C三个区域 A区由82个机架式服务器构成主要部署各类工程计算商业软件，每个服务器含8个 AMD Barcelona 1.9GHz低功耗型Opteron 8347HE四核处理器，128GB共享内存，InfiniBand光纤网络互联； B区由650个刀片式服务器组成，主要用于各种源代码类计算，每个服务器含4个AMD Barcelona 1.9GHz 低功耗型 Opteron 8347HE 四核处理器，64GB共享内存，InfiniBand光纤网络互联； C区由800个刀片式服务器组成，主要用于各种源代码类计算，每个服务器含4个AMD Barcelona 1.9GHz低功耗型Opteron 8347HE四核处理器，InfiniBand光纤网络互联，其中300个刀片含32GB共享内存，500个刀片含64GB共享内存。 * * 串行任务共享内存并行作业 Openmp 同一个节点内消息传递方式MPI并行作业 OpenMP+MPI混合并行作业通常情况下可以采用每节点上的16个核心，分为四组，每组由一个MPI进程，产生并管理四个OpenMP线程的配置。 * 研讨话题结合高性能计算实例，分析OMP对核的利用率 * 谢谢 * Script: Here is another look at the same example – but emphasizing the potential performance payoff from this sort of pipelined approach that we get from using tasks. First off, observe that in single threaded mode, all tasks are done sequentially – Block1 is calculated ( node p is assigned to head), then block 2 (pointer p is processed by process(p), then block 3 ( reads next pointer in the linked list), then repeating Blocks2, block 3 etc. 1st animation Now consider the same code executed in parallel First, the master thread crosses the omp parallel construct and creates a team of threads. Next one of those threads is chosen to execute the while loop – lets call this thread L Thread L encounters an omp task construct at block 2 which copies the code and data for process(p) to a new task – well call it Task1 The thread L increments the pointer p – grabbing a new node from the list, and loops to the top of the while loop Then thread L again encounters an omp task construct at block 2