基于GPU集群的大规模三维弹性波正演模拟并行策略.pptVIP

下载本文档

25
1
约4.7千字
约 31页
2017-09-05 发布于重庆
举报
版权申诉

基于GPU集群的大规模三维弹性波正演模拟并行策略.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

研究内容—使用区域分解方法分摊存储压力为了解决这存储需求的问题，我们实现了区域分解算法。将三维计算区域沿某一方向分成若干子区域，每个子区域分给一个节点计算，这样既将内存压力分配给多个节点分担，又实现了区域级的并行计算。主要研究了：区域分解方法的实现消息传递时间隐藏策略并行I/O的实现研究内容—使用区域分解方法分摊存储压力以沿x方向为例，根据计算区域的大小，确定分解子区域的个数，保证每个子区域的计算所需内存小于GPU的显存。在对区域进行平均划分之后，进程组中的每个进程负责一个子区域的运算。子区域的计算并非完全独立并行执行的。由于差分格式的限制，每个结点的计算都需要用到该结点上下、左右、前后六个方向的若干个点的波场值，因此对于每个区域的边界附近的结点，其计算需要用到相邻区域的结点的波场值。因此我们在每个子区域上附加一个辅助区域。 1.区域分解方法的实现研究内容——区域分解方法研究图中A标记区域即为增加的辅助区域，宽度等于差分格式的阶数。该区域用来接收相邻区域中B标记的部分传递来的波场值。图中给出了各个区域之间的数据传递示意图。一旦区域间的数据传递完成，各个子区域上的计算就可以相互独立地并发执行。 1.区域分解方法的实现研究内容——区域分解方法研究数据传递的时间将会大大降低计算效率，因此我们设计了如图所示的方案，让数据传递时间与计算时间同时进行，从而有效隐藏数据传递的时间。执行流程为：首先在GPU上计算需要交换的部分（B标记部分）的波场值，传回CPU后由CPU启动MPI非阻塞发送（接收）。启动后，程序并不等待发送（接收）操作完成，而是立即返回，执行下一指令——在GPU进行子区域剩余部分（C标记部分）的计算，而CPU同时在进行发送（接收）数据的任务，这样CPU收发数据的时间与GPU计算C标记部分的时间就相互重叠，从而达到隐藏数据传递时间的目的。 2.消息传递时间隐藏策略研究内容——区域分解方法研究 3.并行I/O的实现一般采用的方式（如左图所示）是设置一个节点专门负责读写文件。读文件时，读写节点从文件读取所有数据，然后根据需求将数据分发给其他计算节点。计算结束后，读写节点从各个计算进程收集数据，合并之后写出到文件。由于需要进行文件传递，这样的读写方式效率较低。根据区域分解方法的特点，我们使用了MPI-IO机制实现了多节点并行读写（如右图所示），即不再设置专门的读写节点，而是为每个节点在文件中指定其读写位置，各个节点并行的从该位置读写数据，这样可以省去数据传递的过程，从而提升读写的效率。创新点基于CPU/GPU异构平台实现了三维弹性波正演模拟算法的并行加速策略，大幅度的提高了算法的执行效率。实现区域分解方法，有效地解决了原有算法内存需求大，单节点无法计算的问题。提出了消息传递时间隐藏策略、压缩存储、并行读写等方法策略，进一步提高了算法的计算效率和性能。汇报提纲一、背景和意义二、研究内容与创新点三、成果应用与推广成果应用使用本成果的算法，对东部砂砾岩体构造模型进行了正演模拟。正演模拟参数：模型大小为494×2606×1350，纵、横波速度模型均为6.5GB。观测系统设置为：每一个单炮都设置了6条检波线，检波线间距为100米。每条线有20个检波点，检波点间距为50米，炮间距为100米，采样点数为2000。计算使用的网格大小为10米×10米×10米，时间步长为0.5毫秒。计算机集群环境：使用了5个计算节点，每个节点配置了12核CPU，同时挂载两个GPU卡设备。CPU均为Intel Xeon X5650，主频为2.67GHZ，内存为24GB；GPU设备均为Tesla M2090，每个GPU的显存为6GB。成果应用若只使用CPU进行一个单炮的模拟需要约192.5小时。使用CPU/GPU协同并行计算时，若只是用单个GPU（即不适用区域分解方法）是无法计算的，因为计算所需内存为11.5G，远远超过了单个GPU的内存大小。利用本成果，我们对区域进行了分解，并使用了两个CPU进程和两个GPU卡设备对其分别进行计算，使用GPU内存为5.78G,小于单个GPU的内存大小。在此配置下，计算一个单炮模拟需要的时间为756秒。使用本成果方法，使得大规模模拟任务成为可能，并且并行效率提高十分可观可行性和计算效率成果应用 CPU和GPU设备的工作功率分别为95瓦和250瓦，则计算一个单炮，使用单个CPU计算的策略的耗电量为95*192.5=18.2875千瓦时,使用本成果策略的耗电量为2*（95+250）*756/3600 = 0.1449千瓦时。若工业电费为0.64元/度，则可节省电费11.6元，完成10000个单炮的模拟，就可节省电费11.6万元。使用本成果算法，可以节省大量电费成本