上的性能移植性.PDF

下载文档

2
0
约 1页
2017-05-27 发布于天津
举报
版权申诉
保障服务

上的性能移植性.PDF

1、本文档共1页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

上的性能移植性.PDF

doi:10.1631/FITEE.1500032 题目：使用“基于分析的代码转换方法”来提升GPU 特定的OpenCL kernel 在多核/众核CPU 上的性能移植性目的：针对面向GPU 设计的OpenCL kernel 程序在CPU 上性能移植性欠佳这一问题，设计一种基于访存特征分析的代码转换方法，提升性能移植性。创新点：通过分析OpenCL kernel 中的访存模式，去除不必要的局部存储数组及其带来的同步语句，并使用向量化和局域性重开发进一步优化代码，最终取得显著的性能提升。方法：首先，针对OpenCL kernel 代码中的数组访问，设计一种精确的线性化访问描述子（图 2 ）。然后，利用该描述子，分两步对GPU 特定的OpenCL kernel 代码进行转换，以提高其在CPU 上的性能（图7 ）。第一步为基于分析的work-item 折叠，即通过分析访问描述子，找出并去除不必要的局部存储数组及其带来的同步语句，然后完成 work-item 折叠。第二步为适应架构的代码优化，即针对CPU 架构的特点，使用向量化和局域性重开发进一步优化折叠后的代码。最后，上述代码转换过程被整合为一个工具链，连同一个调度程序，嵌入到一个开源的OpenCL 运行时系统中（图11）。实验结果表明，这种转换方法可以显著提升GPU 特定的OpenCL kernel 在Intel Sandy Bridge 架构CPU 和Intel Knights Corner 架构协处理器上的性能。结论：准确分析OpenCL kernel 代码中的访存模式，不仅利于判断局部存储数组是否适合于 CPU 架构，还能用于指导之后的代码优化过程，因此是提高性能移植性的重要步骤。关键词：OpenCL；性能移植性；多核/众核CPU；基于分析的转换