基于天河二号的格子-BOLTZMANN方法并行加速.pdfVIP

下载本文档

17
0
约1.01万字
约 6页
2017-04-01 发布于湖北
举报
版权申诉

基于天河二号的格子-BOLTZMANN方法并行加速.pdf

1、本文档共6页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于天河二号的格子-BOLTZMANN方法并行加速

2 《高性能计算发展与应用》 2015年第四期总第五十三期基于天河二号的格子-BOLTZMANN方法并行加速 ? 张广勇卢晓伟吴韶华张清浪潮集团高效能服务器和存储技术国家重点实验室济南 250101 zhangqingbj@ ? 钟诚文西北工业大学翼型、叶栅空气动力学国防科技重点实验室西安 710072 摘要：格子-Boltzmann方法是一种利用非连续介质思想研究宏观物理现象，求解流体力学问题的新方法。格子-Boltzmann方法非常适合并行计算，MIC众核处理器具有很好的性能，天河二号系统采用了CPU+MIC协同计算的方式。基于天河二号MIC平台利用MPI+offload+OpenMP混合编程模型加速格子-Boltzmann方法，并完成1024个MIC节点的性能测试，格子-Boltzmann方法 MIC并行算法获得线性的加速比，同时相对于CPU集群获得较好的性能，单MIC集群相对于双路CPU集群的加速比为1.82-1.94，双MIC卡集群比双路CPU集群加速3.54-3.75倍。关键词：格子-Boltzmann，MIC，众核，天河二号，MPI+Offload+OpenMP 1. 引言格子-Boltzmann方法（Lattice Boltzmann method, LBM）[1,2]是一种计算流体动力学（CFD）[3]的数值模拟方法。格子-Boltzmann 方法基于分子动理论，具有清晰的物理背景，在物理模型上介于微观和宏观，因而被称为介观模拟方法。格子-Boltzmann方法被广泛应用于复杂几何边界流体流动、多孔介质流、多相流及反应流等。格子-Boltzmann模型应用的对象计算量比较大，在串行CPU平台或单节点CPU平台上无法满足计算需求，因此，格子-Boltzmann模型往往采用并行计算的方式。格子-Boltzmann模型中一个节点数据的更新仅依赖于其相邻的节点，因而具有很好的并行特性，非常适合并行化加速。 Super Computing 2012大会上，英特尔正式发布了至强融核Xeon Phi，采用MIC（Intel Many Integerated Core）架构，用于高性能并行计算。Xeon Phi是众核协处理器，第一代产品的架构代号为Knights Corner (KNC)。KNC使用22nm工艺制造，含有50个以上的核，每个核支持4个线程，双精性能超过1TFlops，含有512bit的向量宽度，支持8个双通道GDDR内存控制器，内存大小为6GB或8GB。MIC众核计算支持OpenMP、pThread、OpenCL、MPI等并行编程语言[4,5]。 2 0 1 3 年 6 月，天河二号以峰值速度每秒 54,902.4TFLOPS（万亿次浮点运算）、Linpack实测速度33,862.7TFLOPS，成为当今世界上最快的超级计算机[6]。天河二号共有16,000个计算节点，每节点配备两颗Xeon E5-2692 12核心CPU、三个Xeon Phi 57核心的Xeon Phi协处理器。累计32,000颗Xeon E5-2692 CPU和48,000个Xeon Phi协处理器，共312万个计算核心[7]。 CPU+MIC协同计算集群可以提高性能、降低成本，本文利用MPI+offload+OpenMP混合编程模型实现了MIC版本格子-Boltzmann并行算法，并基于天河二号系统进行测试。本文首先实现了MPI+OpenMP混合编程模型的CPU版本格子-Boltzmann并行算法，接着采用offload模式，实现了MIC版本格子-Boltzmann并行算法，然后利用各种优化手段对MIC版本并行算法进行优化；最后，基于天河二号系统进行测试。本文实现的MIC版本格子-Boltzmann方法并行相对于 CPU集群获得较好的性能，单MIC集群(集群中每节点一块MIC卡参与计算，本文简称单MIC集群或1MIC集基金项目：国家863项目-浪潮亿级并发云服务器系统研制（2013AA01A208）资助。 3高性能计算技术群)相对于双路CPU集群的加速比为1.35-2.01，双 MIC卡集群(集群中每节点两块MIC卡参与计算，本文简称双MIC卡集群或2MICs集群)比双路CPU集群(集群中每节点两块CPU参与计算，本文简称双路CPU集群或2CPUs集群)加速2.64-3.94倍。本文的主要贡献为： 1) 将MIC技术应用在流体力学应用流域； 2) 利用MIC加速了格子-Boltzmann方法； 3) 测试了格子-Boltzmann方法在天河二号上的性