基于天河二号的格子-BOLTZMANN方法并行加速.pdfVIP

基于天河二号的格子-BOLTZMANN方法并行加速.pdf

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于天河二号的格子-BOLTZMANN方法并行加速

2 《高性能计算发展与应用》 2015年第四期 总第五十三期 基于天河二号的格子-BOLTZMANN方法 并行加速 ? 张广勇 卢晓伟 吴韶华 张清 浪潮集团高效能服务器和存储技术国家重点实验室 济南 250101 zhangqingbj@ ? 钟诚文 西北工业大学 翼型、叶栅空气动力学国防科技重点实验室 西安 710072 摘要: 格子-Boltzmann方法是一种利用非连续介质思想研究宏观物理现象,求解流体力学问题的 新方法。格子-Boltzmann方法非常适合并行计算,MIC众核处理器具有很好的性能,天河二号 系统采用了CPU+MIC协同计算的方式。基于天河二号MIC平台利用MPI+offload+OpenMP混合 编程模型加速格子-Boltzmann方法,并完成1024个MIC节点的性能测试,格子-Boltzmann方法 MIC并行算法获得线性的加速比,同时相对于CPU集群获得较好的性能,单MIC集群相对于双 路CPU集群的加速比为1.82-1.94,双MIC卡集群比双路CPU集群加速3.54-3.75倍。 关键词:格子-Boltzmann,MIC,众核,天河二号,MPI+Offload+OpenMP 1. 引言 格子-Boltzmann方法(Lattice Boltzmann method, LBM)[1,2]是一种计算流体动力学(CFD)[3]的数值模 拟方法。格子-Boltzmann 方法基于分子动理论,具有 清晰的物理背景,在物理模型上介于微观和宏观, 因而被称为介观模拟方法。格子-Boltzmann方法被广 泛应用于复杂几何边界流体流动、多孔介质流、多 相流及反应流等。格子-Boltzmann模型应用的对象计 算量比较大,在串行CPU平台或单节点CPU平台上无 法满足计算需求,因此,格子-Boltzmann模型往往采 用并行计算的方式。格子-Boltzmann模型中一个节点 数据的更新仅依赖于其相邻的节点,因而具有很好 的并行特性,非常适合并行化加速。 Super Computing 2012大会上,英特尔正式发布了 至强融核Xeon Phi,采用MIC(Intel Many Integerated Core)架构,用于高性能并行计算。Xeon Phi是众核 协处理器,第一代产品的架构代号为Knights Corner (KNC)。KNC使用22nm工艺制造,含有50个以上的 核,每个核支持4个线程,双精性能超过1TFlops, 含有512bit的向量宽度,支持8个双通道GDDR内存 控制器,内存大小为6GB或8GB。MIC众核计算支 持OpenMP、pThread、OpenCL、MPI等并行编程语 言[4,5]。 2 0 1 3 年 6 月 , 天 河 二 号 以 峰 值 速 度 每 秒 54,902.4TFLOPS(万亿次浮点运算)、Linpack实测 速度33,862.7TFLOPS,成为当今世界上最快的超级计 算机[6]。天河二号共有16,000个计算节点,每节点配 备两颗Xeon E5-2692 12核心CPU、三个Xeon Phi 57核 心的Xeon Phi协处理器。累计32,000颗Xeon E5-2692 CPU和48,000个Xeon Phi协处理器,共312万个计算核 心[7]。 CPU+MIC协同计算集群可以提高性能、降低成 本,本文利用MPI+offload+OpenMP混合编程模型实现 了MIC版本格子-Boltzmann并行算法,并基于天河二 号系统进行测试。本文首先实现了MPI+OpenMP混合 编程模型的CPU版本格子-Boltzmann并行算法,接着 采用offload模式,实现了MIC版本格子-Boltzmann并 行算法,然后利用各种优化手段对MIC版本并行算 法进行优化;最后,基于天河二号系统进行测试。 本文实现的MIC版本格子-Boltzmann方法并行相对于 CPU集群获得较好的性能,单MIC集群(集群中每节点 一块MIC卡参与计算,本文简称单MIC集群或1MIC集 基金项目:国家863项目-浪潮亿级并发云服务器系统研制(2013AA01A208)资助。 3高性能计算技术 群)相对于双路CPU集群的加速比为1.35-2.01,双 MIC卡集群(集群中每节点两块MIC卡参与计算,本文 简称双MIC卡集群或2MICs集群)比双路CPU集群(集群 中每节点两块CPU参与计算,本文简称双路CPU集群 或2CPUs集群)加速2.64-3.94倍。 本文的主要贡献为: 1) 将MIC技术应用在流体力学应用流域; 2) 利用MIC加速了格子-Boltzmann方法; 3) 测试了格子-Boltzmann方法在天河二号上的 性

您可能关注的文档

文档评论(0)

***** + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档