- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
研究内容—使用区域分解方法分摊存储压力 为了解决这存储需求的问题,我们实现了区域分解算法。将三维计算区域沿某一方向分成若干子区域,每个子区域分给一个节点计算,这样既将内存压力分配给多个节点分担,又实现了区域级的并行计算。主要研究了: 区域分解方法的实现 消息传递时间隐藏策略 并行I/O的实现 研究内容—使用区域分解方法分摊存储压力 以沿x方向为例,根据计算区域的大小,确定分解子区域的个数,保证每个子区域的计算所需内存小于GPU的显存。在对区域进行平均划分之后,进程组中的每个进程负责一个子区域的运算。 子区域的计算并非完全独立并行执行的。由于差分格式的限制,每个结点的计算都需要用到该结点上下、左右、前后六个方向的若干个点的波场值,因此对于每个区域的边界附近的结点,其计算需要用到相邻区域的结点的波场值。因此我们在每个子区域上附加一个辅助区域。 1.区域分解方法的实现 研究内容——区域分解方法研究 图中A标记区域即为增加的辅助区域,宽度等于差分格式的阶数。该区域用来接收相邻区域中B标记的部分传递来的波场值。图中给出了各个区域之间的数据传递示意图。一旦区域间的数据传递完成,各个子区域上的计算就可以相互独立地并发执行。 1.区域分解方法的实现 研究内容——区域分解方法研究 数据传递的时间将会大大降低计算效率,因此我们设计了如图所示的方案,让数据传递时间与计算时间同时进行,从而有效隐藏数据传递的时间。执行流程为:首先在GPU上计算需要交换的部分(B标记部分)的波场值,传回CPU后由CPU启动MPI非阻塞发送(接收)。启动后,程序并不等待发送(接收)操作完成,而是立即返回,执行下一指令——在GPU进行子区域剩余部分(C标记部分)的计算,而CPU同时在进行发送(接收)数据的任务,这样CPU收发数据的时间与GPU计算C标记部分的时间就相互重叠,从而达到隐藏数据传递时间的目的。 2.消息传递时间隐藏策略 研究内容——区域分解方法研究 3.并行I/O的实现 一般采用的方式(如左图所示)是设置一个节点专门负责读写文件。读文件时,读写节点从文件读取所有数据,然后根据需求将数据分发给其他计算节点。计算结束后,读写节点从各个计算进程收集数据,合并之后写出到文件。由于需要进行文件传递,这样的读写方式效率较低。根据区域分解方法的特点,我们使用了MPI-IO机制实现了多节点并行读写(如右图所示),即不再设置专门的读写节点,而是为每个节点在文件中指定其读写位置,各个节点并行的从该位置读写数据,这样可以省去数据传递的过程,从而提升读写的效率。 创新点 基于CPU/GPU异构平台实现了三维弹性波正演模拟算法的并行加速策略,大幅度的提高了算法的执行效率。 实现区域分解方法,有效地解决了原有算法内存需求大,单节点无法计算的问题。 提出了消息传递时间隐藏策略、压缩存储、并行读写等方法策略,进一步提高了算法的计算效率和性能。 汇 报 提 纲 一、背景和意义 二、研究内容与创新点 三、成果应用与推广 成果应用 使用本成果的算法,对东部砂砾岩体构造模型进行了正演模拟。 正演模拟参数: 模型大小为494×2606×1350,纵、横波速度模型均为6.5GB。观测系统设置为:每一个单炮都设置了6条检波线,检波线间距为100米。每条线有20个检波点,检波点间距为50米,炮间距为100米,采样点数为2000。计算使用的网格大小为10米×10米×10米,时间步长为0.5毫秒。 计算机集群环境: 使用了5个计算节点,每个节点配置了12核CPU,同时挂载两个GPU卡设备。CPU均为Intel Xeon X5650,主频为2.67GHZ,内存为24GB;GPU设备均为Tesla M2090,每个GPU的显存为6GB。 成果应用 若只使用CPU进行一个单炮的模拟需要约192.5小时。 使用CPU/GPU协同并行计算时,若只是用单个GPU(即不适用区域分解方法)是无法计算的,因为计算所需内存为11.5G,远远超过了单个GPU的内存大小。 利用本成果,我们对区域进行了分解,并使用了两个CPU进程和两个GPU卡设备对其分别进行计算,使用GPU内存为5.78G,小于单个GPU的内存大小。在此配置下,计算一个单炮模拟需要的时间为756秒。 使用本成果方法,使得大规模模拟任务成为可能,并且并行效率提高十分可观 可行性和计算效率 成果应用 CPU和GPU设备的工作功率分别为95瓦和250瓦,则计算一个单炮,使用单个CPU计算的策略的耗电量为95*192.5=18.2875千瓦时,使用本成果策略的耗电量为2*(95+250)*756/3600 = 0.1449千瓦时。若工业电费为0.64元/度,则可节省电费11.6元,完成10000个单炮的模拟,就可节省电费11.6万元。 使用本成果算法,可以节省大量电费成本
您可能关注的文档
最近下载
- 抖音农产品短视频直播带货策划方案_20250226_105516.pptx VIP
- 植物提取物人参提取物.pdf VIP
- 某企业数据治理现状分析报告.docx VIP
- RBA年度目标、指标管理方案一览表(2018).docx
- 2024全国生态环境监测专业技术人员大比武备考试题库-上(单选、多选题).docx VIP
- 《失智老年人照护》课件:协助失智老年人分类保管药物并进行口服、胃管给药相关知识.pptx VIP
- 加拿大跨国公司的主要特点及其战略调整.pdf VIP
- 2025外研版英语四年级上册全册教学设计教案.docx
- 送货单-进货单.xlsx VIP
- “巴渝工匠”杯重庆市水利行业职业技能竞赛(水工监测工)备赛试题库资料(含答案).pdf
文档评论(0)