面向GPU的稀疏矩阵并行方法研究.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

面向GPU的稀疏矩阵并行方法研究

摘要

稀疏矩阵是科学计算和工程应用中常见的一种矩阵类型,稀疏矩阵的压缩和存储对

提升数值计算并行性能具有重要的意义。在GPU硬件平台上,依托于其强大计算能力

和高吞吐率优势,能够降低矩阵算法的时间复杂度和访存延迟,有效提高并行计算效率。

稀疏矩阵计算是一种典型的访存受限不规则计算,严重制约着GPU高性能体系结构性

能的充分发挥。现有的稀疏矩阵计算研究仍存在着负载不均衡、零元素填充过度、访存

频繁以及一种压缩格式难以适应多种矩阵类型存储等问题。针对以上问题,在面向GPU

的硬件平台上就如何提高稀疏矩阵并行计算效率,开展以下研究工作:

1、针对不规则稀疏矩阵中行非零元个数差异性较大造成并行SpMV负载不均衡的

问题,提出了一种面向不规则稀疏矩阵的SpMV并行GPU优化方法。首先,设计了一

种基于行变换的PGC非零元个数划分策略,将输入矩阵中每行非零元个数划分到多个

组内,使得组间标准差最小,组的个数与GPU线程块数相一致。其次,按照划分策略

结果中的非零元个数分布完成矩阵的重新排列,并对其进行压缩,传递压缩后的数据从

主机端至设备端,结合GPU的warp机制,将每个块内的线程个数设置为32的倍数,

以此减少访存次数。最后,设计GPU的kernel函数,按照每个线程处理一行的策略进

行SpMV计算,将最终结果向量从设备端传递到主机端。实验结果表明,基于PGC划

分策略的SpMV具有更高的加速比,能够有效提高不规则稀疏矩阵的并行计算效率。

2、针对对角矩阵的系列压缩格式需要进行大量的零元素填充而造成计算冗余和存

储冗余的问题,提出了一种面向对角稀疏矩阵的SpMV并行GPU优化方法。首先,在

保证对角线上数据连续性的条件下,根据对角线上非零元个数阈值将输入的稀疏对角矩

阵划分为对角矩阵和不规则矩阵。其次,设计了一种基于最小化零元素填充策略和负载

均衡策略的HPDC矩阵压缩格式,并采用不规则稀疏矩阵的划分策略PGC处理输入矩

阵中剩余的数据,使得GPU各个线程块之间具有最小的负载标准差以及较低的内存占

用率。最后,结合GPU的非阻塞流技术,使得两个GPU内核函数kernel在计算过程中

同步执行。实验结果表明,基于HPDC压缩格式的SpMV零元素填充数量较低,减少了

冗余访存次数,有效提高SpMV的并行计算效率。

3、针对并行SpGEMM中间结果计算容易造成各个GPU线程块计算量不均等以及

访存频繁的问题,提出了一种面向不规则矩阵的SpGEMM并行GPU优化方法。首先,

按照行主序相乘的方式计算出稀疏矩阵中各个行的中间结果个数,基于PGC设计了一

I

哈尔滨工程大学博士学位论文

个中间结果个数划分策略,保证了GPU线程块之间的负载标准差最小。其次,按照划

分策略的数据分布和Hash表的线性探测机制在GPU平台上预估输出矩阵的非零元个

数,以此减少合并过程中内存的占用率和访存次数。最后,采用偏移量控制每个线程计

算的起始和终点位置,完成乘法和中间结果合并操作,提高了GPU的资源利用率和有

效计算时间。实验结果表明,基于SPMSD策略的SpGEMM相比于其他方法有更少的

执行时间以及更高的并行计算性能。

4、针对单一压缩格式难以适应多种矩阵类型存储的问题,提出一种面向GPU的自

适应压缩格式优化方法。首先,建立一个包含不规则矩阵、对角矩阵、对称矩阵等稀疏

矩阵类型的数据集,采用多种压缩格式或方法进行最优SpMV性能计算,并获取9种矩

阵性能参数值形成特征数据集。其次,在两种不同架构的GPU硬件平台上深入分析了

各个特征参数值与压缩格式之间的映射关系,利用Bagging集成学习算法和十次交叉验

证的划分策略,对稀疏矩阵的特征值实现快速分类和训练。最后,自适应方法进行最优

压缩格式或方法的预测,经过此阶段后获得预测结果标签,并基于对应的标签压缩格式

执行SpMV计算。实验结果表明,基于Bagging的自适应压缩格式产生的性能损失代价

较低,并具有较高的预测准确度和SpMV并行计算性能。

关键词:稀疏矩阵;GPU并行计算;SpMV;SpGEMM;自适应压缩格式

文档评论(0)

n1u1 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档