异构平台三维UPML-FDTD算法的实现及优化-上海超级计算中心.PDF

异构平台三维UPML-FDTD算法的实现及优化-上海超级计算中心.PDF

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
异构平台三维UPML-FDTD算法的实现及优化-上海超级计算中心

30 《高性能计算发展与应用》 2013年第三期 总第四十四期 异构平台三维UPML-FDTD算法的实现及优化  徐磊 徐莹 蒋荣琳 张丹丹 上海超级计算中心 上海201203 摘要: 使用时域有限差分(FDTD)算法进行电磁场模拟需要进行大量的浮点计算。而协处理器 如GPU,拥有强大的浮点计算性能,在电磁研究领域,使用协处理器的FDTD算法已经用于电 磁场的模拟。本文在基于GPU的异构集群上实现了三维UPML-FDTD算法并进行了优化。采 用电偶极子激励源对算法的模拟结果同解析解进行了验证,结果表明算法具有较高的精度。 本文深入研究了节点间MPI通讯与GPU显存与CPU主内存之间的数据传输的优化技术,并深 入挖掘GPU纹理内存以及kernel函数并发等技术在FDTD算法中的应用。这些优化技术在Tesla M2070和K20m 集群上对 GPU FDTD算法的性能进行测试,对优化前后的计算性能以及GPU与 CPU的计算性能进行了比较,并使用最多80块Tesla K20m GPU进行了可扩展性测试。从本文的 研究结果可以看出,经过优化的FDTD算法性能有了较大的提升, FDTD算法在GPU集群上获 得的并行效率比较理想,优化方法显著提升算法性能。 关键词:FDTD,UPML,异构平台,GPU集群,MPI 1. 引言 几何建模要求较高。 自麦克斯韦1873年提出麦克斯韦旋度方程组以 随着异构技术的发展,国内外不少学者已经在 来,围绕该方程组,电磁领域的学者开展了深入的 GPU平台上进行FDTD的移植研究,但大部分的研究 [1,2,3,4,5] 研究。研究结果表明,该方程组的解析解只存在简 是在单GPU卡上进行计算。由于GPU的显存容 单特殊的模型中,对于复杂模型的求解只能采用数 量十分有限,在PCI-E接口带宽有限的情况下,单 值方法近似模拟。已经提出的求解麦克斯韦旋度方 GPU上开展大规模的FDTD计算,获得的加速比较 程的数值计算方法有,矩量法(MoM)、有限元法 低。单GPU卡的情况由于没有考虑GPU节点间的通 (FEM)、边界元法(BEM)和时域有限差分法( 讯,在现实应用中有其局限性。 FDTD)等。其中应用较多的MoM方法是一种全频率 小规模GPU集群上进行FDTD并行算法的研究远 算法,具有较高的精度。但是MoM算法的主要计算 少于单GPU卡上的研究。这里主要介绍以下三个学 [6] 量为求解复数稠密矩阵,并行难度较大。FDTD算法 者的研究成果:Tomoaki等人在3个节点,每节点 由于其数学上的简洁性以及方便易用的特点在电磁 7块NVIDIA Tesla C2070的GPU集群中测试了FDTD算 场辐射和散射以及电磁兼容等广泛领域取得了成功。 法,在同一节点使用2块GPU的性能是使用7块GPU的 FDTD算法由K.S.Yee于1966年提出,它直接对麦 2.3倍,使用三个节点(21块GPU)是使用一个节点 克斯韦旋度方程作差分处理,来解决电磁脉冲在电

您可能关注的文档

文档评论(0)

youbika + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档