- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
异构平台下格子boltzmann方法实现及性能分析-上海超级计算中心
高性能计算技术 25
张丹丹 徐莹 徐磊
上海超级计算中心 上海201203 ddzhang,yxu,lxu@
摘要:
论文对CPU+GPU异构平台下的多种并行编程模式进行了研究,并针对格子Boltzmann方法
实现了CUDA,MPI+CUDA,MPI+OpenMP+CUDA多级并行算法。结果表明,算法具有较好
的加速性能;提出的根据计算量比例参数调节CPU 和GPU之间负载均衡的方法,对于在异构平
台上实现多级并行处理及资源的有效利用具有一定的参考和应用价值。
关键词:异构平台,GPU,格子Boltzmann,并行
[8]
在高性能计算应用时代,大规模计算流体力学 和 ,Fan
[9]
越来越依赖于计算科学和计算技术的发展。集群环 et al.在多GPU上获得了21.4倍的加速 。
境下多节点或单节点多核并行CPU计算已广泛用于 当前,GPU设备在HPC领域的应用往往与CPU结
高性能计算(HPC)应用。而自1993年开始,GPU的性 合作为集群环境的计算节点。GPU的加入,使得系统
能便以每年2.8倍的速度高速增长,GPU性能的迅速 单节点的计算能力得到大幅度提升,但往往这时会
提升及在HPC的相关技术的发展给HPC领域带来了新 出现一个问题,那就是CPU资源得不到充分利用。如
[1]
的机遇和挑战。随着NVIDIA CUDA(Compute Unified何既能发挥GPU的计算优势,又使得CPU资源合理利
Device Architecture)的发布,GPU在浮点运算能力、 用,成为大规模并行急待解决的问题。本文以LBM
带宽和更好的可编程性等方面的优势,已经被应 D3Q19为例,在多路、多核、多GPU异构平台下通过
用在了通用计算领域,即GPGPU(General-Purpose多种并行编程模式对应用实现多级并行,并对异构
Graphics Processing Unit)。2011年6月的世界超级计算 平台下计算资源的有效利用问题进行了探索。
[2]
机TOP500中,使用加速部件的有19台系统,比上一 本文以下第二部分介绍格子Boltzmann方法,第
届的5台提高了约3倍。 三部分介绍CPU+GPU异构平台下多层次并行实现,
HPC领域中许多科学计算应用被移植到GPU上, 第四部分为结束语。
并获得了更高性能,但很少有计算流体力学(CFD)
应用,原因在于CFD应用大多难以满足内存访问需求 1. 格子Boltzmann方法
少、计算密集性强的特点。当前,已经有CFD中的应 格子Boltzmann算法是一种模拟流体流动的数
用移植到GPU平台上,并获得10-100倍的加速性能 值方法,它不再基于连续介质假设,而是把流体看
[3,4,5,6]
。 成许多只有质量没有体积的微粒组成,这些微粒可
格子Boltzmann方法(LBM),因其计算简单, 以向空间的若干方向任意流动。它的主要思想就是
适合处理复杂边界和易于并行,现已成功地应用在 以简单规则的微观粒子运动代替复杂多变的宏观现
[7]
许多流体问题的模拟和建模方面 。由于GPU拥有更 象。粒子在每个时间步的运动由两个子步构成,即:
多的计算单元,而格子Boltzmann方程只有在边
文档评论(0)