CPU-GPGPU共享最后一级缓存架构中的数据共享优化研究.docxVIP

CPU-GPGPU共享最后一级缓存架构中的数据共享优化研究.docx

  1. 1、本文档共2页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
PAGE1 / NUMPAGES1 CPU-GPGPU共享最后一级缓存架构中的数据共享优化研究 随着CPU和GPGPU在各种环境下得到应用,人们逐渐发现这两个处理器各自的独特优势。为了实现优势互补并支持更广泛的场景,由CPU和GPGPU组成的异构多处理器系统受到关注。 其中CPU和GPGPU共享最后一级缓存(LLC)的片上紧耦合系统能实现更细粒度的交互。然而简单地将CPU和GPGPU连接到共享LLC时两种处理器在访存行为上的差异性导致数据共享效率受限,并不能充分发挥异构多处理器系统的计算能力。 本文首先分析了CPU和GPGPU使用共享LLC进行数据交换时的访存特征。 发现简单的缓存替换策略并不能提供最高的数据交换效率,会产生缓存抖动问题,中间暂存数据被写入内存也会引入不必要的内存事务并浪费了内存带宽。 此外传统的交互模式往往造成一方处理器空闲等待对方提供数据,无法有效地实现数据生成和计算的重叠。为了解决这些问题,本文提出使用固定大小的元素作为数据交换单位,并在LLC中实现硬件管理的共享数据队列以支持基于元素的数据共享。 进一步提出元素-原子的数据组织方式以移除元素大小限制,配合访问协议支持GPGPU大规模乱序访问。同时还使用后备存储避免死锁同时保持访问低延迟,并在共享数据队列中实现了低代价的全局同步。 在使用传统LLC进行数据交换时,本文发现CPU和GPGPU的算法常常偏好不同的最优数据存储布局以满足各自不同的局部性,导致数据存储布局冲突。已有的转换方法会污染转换处理器的缓存、引入额外的转换代码执行或管理代价。 本文通过在共享LLC中加入访存地址重映射实现体系结构辅助的自动转换。于是运行在不同处理器上的算法始终可以它们各自的最优数据存储布局访问共享数据,并充分利用各的自私有缓存。 由于处理器不再直接进行布局转换,CPU或GPGPU代码中也不再需要加入额外的管理代码。其次,本文使用可编程的重映射控制器实现灵活的数据存储布局转换,移除了对数据大小和只支持特定目标布局的限制。 根据GPGPU并行访存的特征,本文指出其访存过程中存在大量的仿射计算,即各线程执行完全相同的内存地址计算,只有作为输入的线程ID有差异。这种冗余计算导致GPGPU的计算资源浪费且不利于对访存统一调度。 因此本文提出访存分离计算,由CPU生成仿射计算参数,交由共享LLC计算各线程的实际访存地址,并生成相应的访存请求。LLC最终将数据经过访存融合后推送给GPGPU的各线程。 因此访存分离计算移除了GPGPU代码中大部分的访存地址计算和访存操作本身,将更多GPGPU的计算资源保留给实际工作,提高了系统效率。最后,本文使用模拟器环境验证提出的优化方法。 其中共享数据队列相比传统的数据交换方法加速了48%,而CPU和GPGPU的平均全局同步时间分别缩短到21%和38%。使用共享数据存储布局重映射后,测试程序的平均执行时间降低到69%;相比于使用CPU和GPGPU进行数据存储布局转换,使用本文的方法的平均转换时间分别减少到58%和46%。 访存分离计算则将运行时间平均降低到48%,GPGPU平均执行的指令数下降到84%。实验表明,本文提出的优化方法从不同角度提升了CPU和GPGPU在共享LLC架构下的数据共享性能。

文档评论(0)

153****2710 + 关注
实名认证
文档贡献者

非专业程序员,熟练python爬虫,制作教育游戏等。

1亿VIP精品文档

相关文档