共轭梯度法在GPU及Xeon Phi下的并行优化及比较.pdfVIP

共轭梯度法在GPU及Xeon Phi下的并行优化及比较.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
华南理工大学学报(自然科学版) 第 43 卷第 11 期 Joumal of South China University of Technology Vol. 43 NO.11 2015 年 11 月 (Natural Science Edition) November 2015 文章编号: 1 删 -565X(2015)11- ∞35-12 共辄梯度法在 GPU 及 Xeon Phi 下的并行优化及比较* 黄敏 l 丁萍 1 , 2 罗海地 2 (1.华南理工大学软件学院,广东广州 5 川剧; 2. 广州中国科学院软件应用技术研究所智能视频实验室,广东广州 511458) 摘 要:为了充分利用多核处理器的强大计算能力并满足具有高并行度应用的需求,提 出一种基于大规模稀疏矩阵特征问题求解的并行共辄梯度算法.对图形处理器 (GPU) 上 的计算,有效利用 GPU 多层次的存储器体系,采用线程与矩阵映射、数据合并访问、数据 复用等优化手段,并通过高效的线程调度来隐藏全局存储器的高延迟访问;对 Xeon Phi 处理器上的计算,有效利用 Xeon Phi 的高并行度计算对数据通信/传递、减少数据依赖、 向量化、异步计算等进行优化,并通过高效的线程调度来隐藏全局存储器的高延迟访问. 文中还通过实验验证了算法的可行性和正确性,并对比了不同方式下的运行效率,发现共 辄梯皮法在 GPU 下比在 Xeon Phi 下的加速效果更好. 关键词:共辄梯皮法;图形处理器 ;Xeon Phi; 并行优化;稀疏矩阵向量来 中图分类号: TP391. 9 doi: 10. 3969/j. issn. lOOO-565X. 2015.11.006 城市大气污染的揣流模拟[ 1.2] 、视频处理、流体 出了适宜的存储格式,这些存储格式可以节省存储 和力学计算、生物医药分析等科学计算中牵涉到很 空间或加速读取[ 16] 此外,数据预取、分块技术、数 多大规模数值模拟,传统的串行计算方式无法满足 据复用和矩阵重组等优化技术也可以应用于其 大规模数值模拟对计算速度的要求,如何提高求解 中[川.袁娥等 [18] 通过将稀疏矩阵分成一个个小的 速度是科研人员关注的焦点 [3] 在城市空气污染的 稠密块,使之适宜用块压缩存储( BCSR) 格式进行 揣流模拟中,如何高效求解预条件方程是提高迭代 存储,同时采用了寄存器分块和启发式分块大小选 求解共辄梯度算法性能的关键 [4] 本研究的应用背 择算法,使得该 SpMV 计算内核的性能大为提高. 景是模拟城市区域多尺度的百万网格的计算 [56] , 由于图形处理器( GPU) 的性能得到较大提高, 在建立有限元的数值模型后,采取雅可比迭代法 [7.8] 一些研究者开

文档评论(0)

heroliuguan + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:8073070133000003

1亿VIP精品文档

相关文档