cpu-gpu异构系统的性能分析及优化研究.pdfVIP

  • 84
  • 0
  • 约1.02万字
  • 约 5页
  • 2018-11-16 发布于天津
  • 举报

cpu-gpu异构系统的性能分析及优化研究.pdf

cpu-gpu异构系统的性能分析及优化研究

博士学位论文公示材料 学生姓名 王彦华 学号 1310419 二级学科 计算机应用技术 导师姓名 乔建忠 论文题目 CPU-GPU 异构系统的性能分析及优化研究 论文研究方向 并行计算,异构系统 论文关键词 GPU ;异构系统;任务分配;负载调度;数据传输;全局存储器;访存 拥塞;性能优化 论文摘要(中文) 近几十年来,并行计算以及高性能计算高速发展,随着大规模计算以及数据密集计算对处理 器处理能力的强大需求,CPU 已经不能满足该需求。图形处理单元(GPU,Graphics Processing Unit ) 集成了成百上千个晶体管作为执行核心,并且由于GPU通用计算 (GPGPU ,General-Purpose Computing on Graphics Processing Unit )的飞速发展,其强大的处理能力在处理大规模计算方面具 有明显的优势。因此,GPU 的应用范围日益广泛,异构系统逐步发展,促使异构系统的性能优化 成为研究热点。但是,GPU结构的复杂性和特殊性也给异构系统的性能优化带来了巨大的挑战。 并行计算使用GPGPU,能改善系统的性能和效率。目前,有很多研究专注于改善异构系统的 性能。本文围绕CPU-GPU异构系统性能优化的目标,充分分析GPU通用计算的相关技术,基于GPU 体系架构,详细阐述异构系统任务分配、通信模型、负载调度、存储模型等方面的研究内容和方 法,从而针对异构系统性能优化方法等方面展开研究。本文的研究内容和成果如下: (1)针对CPU-GPU异构系统在CPU和GPU上的任务分配问题,本文提出并实现了两阶段的 任务分配模型。第一阶段,使用支持向量机(SVM,Support Vector Machine )进行任务预处理, SVM将任务分成两种类型CPU型和GPU型,得到两个任务集合。第二阶段,根据预处理分类所得 的两个集合,提出基于数据依赖的任务分配模型和最小化时间差的任务分配模型。基于数据依赖 关系任务分配模型通过多轮调整预分配给CPU和GPU 的任务集来最大程度的缩短程序的执行时 间。根据处理器的特征的状态以及预处理结果,并对分配集合进行多轮调整后实施实际的任务分 配。该任务分配模型在具体的异构系统中实现,可以有效的提供异构系统的执行效率,提高了系 统的吞吐率。最小化时间差的任务分配模型估算了CPU和GPU 的执行时间,调整两个任务集,在 两个任务集时间差最小的情况下实施任务分配。该模型有效的提高了任务分配效率和系统整体性 能,且具有较小的分配开销。 (2 )对于GPU 上的大规模并行负载来说,其调度策略能够严重影响系统性能。为了解决该 类调度问题,本文在对负载执行调度前对相应的数据传输进行调度,针对GPU 上负载提出了一个 优化的调度算法。通过将数据传输最大程度的隐藏到负载执行过程中的方法,该算法能够降低等 待时间。最终获得小的总调度时间。本文将数据传输隐藏到负载执行的问题归类为0-1 背包问题。 针对该问题提出了基于 Dyer-Zemel 算法的伪多项式时间算法(PPTA ,Pseudo-Polynomial Time —1— Algorithm )。然后推导出该多项式时间算法的完全多项式时间算法(FPTAS ,Fully Polynomial-Time Algorithm Scheme )。该调度算法能够对GPU 上大规模负载估算出有效的最优调度序列,有效降 低处理核心的空转时间,很好的解决了调度问题,优化了系统性能。 (3 )大量的访问全局存储器可能会导致GPU核函数严重的瓶颈。拥塞的全局存储器访问会导 致低吞吐量和较差的性能。本文综合分析GPU相关存储器的基本特征:访存的地址分布率,SM (Stream Multiprocessor)和全局存储器之间的带宽利用率,合并访存率,计算指令与访存指令比 率,读指令和写指令的比率。基于这些特征指标我们设计了一个访问全局存储器的拥塞判定模型。 该模型能够针对访问全局存储器产生的拥塞程度进行分类。然后使用基于蛛网的灰靶决策模型来 缓解拥塞。实验结果表明,本文提出的全局存储器拥塞缓解模型能够在一定程度上缓解访存拥塞,

文档评论(0)

1亿VIP精品文档

相关文档