异构平台三维UPML－FDTD算法的实现及优化-上海超级计算中心.PDF

下载文档

14
0
约 8页
2017-08-05 发布于天津
举报
版权申诉
保障服务

异构平台三维UPML－FDTD算法的实现及优化-上海超级计算中心.PDF

1、本文档共8页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

异构平台三维UPML－FDTD算法的实现及优化-上海超级计算中心

30 《高性能计算发展与应用》 2013年第三期总第四十四期异构平台三维UPML-FDTD算法的实现及优化  徐磊徐莹蒋荣琳张丹丹上海超级计算中心上海201203 摘要：使用时域有限差分（FDTD）算法进行电磁场模拟需要进行大量的浮点计算。而协处理器如GPU，拥有强大的浮点计算性能，在电磁研究领域，使用协处理器的FDTD算法已经用于电磁场的模拟。本文在基于GPU的异构集群上实现了三维UPML-FDTD算法并进行了优化。采用电偶极子激励源对算法的模拟结果同解析解进行了验证，结果表明算法具有较高的精度。本文深入研究了节点间MPI通讯与GPU显存与CPU主内存之间的数据传输的优化技术，并深入挖掘GPU纹理内存以及kernel函数并发等技术在FDTD算法中的应用。这些优化技术在Tesla M2070和K20m 集群上对 GPU FDTD算法的性能进行测试，对优化前后的计算性能以及GPU与 CPU的计算性能进行了比较，并使用最多80块Tesla K20m GPU进行了可扩展性测试。从本文的研究结果可以看出，经过优化的FDTD算法性能有了较大的提升， FDTD算法在GPU集群上获得的并行效率比较理想，优化方法显著提升算法性能。关键词：FDTD，UPML，异构平台，GPU集群，MPI 1. 引言几何建模要求较高。自麦克斯韦1873年提出麦克斯韦旋度方程组以随着异构技术的发展，国内外不少学者已经在来，围绕该方程组，电磁领域的学者开展了深入的 GPU平台上进行FDTD的移植研究，但大部分的研究 [1,2,3,4,5] 研究。研究结果表明，该方程组的解析解只存在简是在单GPU卡上进行计算。由于GPU的显存容单特殊的模型中，对于复杂模型的求解只能采用数量十分有限，在PCI-E接口带宽有限的情况下，单值方法近似模拟。已经提出的求解麦克斯韦旋度方 GPU上开展大规模的FDTD计算，获得的加速比较程的数值计算方法有，矩量法（MoM）、有限元法低。单GPU卡的情况由于没有考虑GPU节点间的通（FEM）、边界元法（BEM）和时域有限差分法（讯，在现实应用中有其局限性。 FDTD）等。其中应用较多的MoM方法是一种全频率小规模GPU集群上进行FDTD并行算法的研究远算法，具有较高的精度。但是MoM算法的主要计算少于单GPU卡上的研究。这里主要介绍以下三个学 [6] 量为求解复数稠密矩阵，并行难度较大。FDTD算法者的研究成果：Tomoaki等人在3个节点，每节点由于其数学上的简洁性以及方便易用的特点在电磁 7块NVIDIA Tesla C2070的GPU集群中测试了FDTD算场辐射和散射以及电磁兼容等广泛领域取得了成功。法，在同一节点使用2块GPU的性能是使用7块GPU的 FDTD算法由K.S.Yee于1966年提出，它直接对麦 2.3倍，使用三个节点（21块GPU）是使用一个节点克斯韦旋度方程作差分处理，来解决电磁脉冲在电