C870流处理器上的大型矩阵计算方法.pdfVIP

下载本文档

8
0
约9.51千字
约 5页
2017-09-11 发布于重庆
举报
版权申诉

C870流处理器上的大型矩阵计算方法.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

电子发烧友电子技术论坛 C870 流处理器上的大型矩阵计算方法贾丹，陈庆奎 (上海理工大学计算机与电气工程学院上海 200093) 摘要: C870 流处理器采用三级存储层次、三级访问模式，其流处理结构特别适合于数据并行性好、全局数据重用较少的计算密集型应用。根据 C870 流处理器的软硬件结构，针对高度的浮点密集运算、海量数据元素并行计算的问题，本文提出使用计算来隐藏内存访问的延迟，从而提高存储系统的带宽。并首次提出了在 C870 流处理器上的使用芯片上共享内存（On-chip Shared Memory）的大型矩阵的计算方法，并用 5000*5000 和 2000*2000 的方形矩阵进行优化实验，实验结果证明了使用芯片上共享内存优化计算，可以使浮点性能提高 7 倍多。关键词: C870流处理器；矩阵计算；芯片上共享内存中图分类号：TP302.7 文献标识码：A A Large Matrix Calculation Method on C870 Stream Processor Jia Dan ,Chen Qing-kui College of Computer and Electrical Engineering , University of Shanghai for Science and Technology , Shanghai 200093,China Abstract: C870 stream processor uses three storage levels, three access patterns, the stream structure particularly suited to data parallelism and the overall data reused less compute-intensive applications. The solutions for highly floating point-intensive computing and a large number of data elements parallel computing problems, memory access can use the delay calculation to hide, so as to enhance the bandwidth of system storage. According to the C870 stream processor hardware and software structure, the paper described on the C870 stream processor to use on-chip shared memory to calculate a large matrix, and to use experimental data to prove that the use of the on-chip shared memory of C870 stream processor, can effectively increase the bandwidth of system storage and improve the efficiency of parallel computing. Key words: C870 Stream Processor; Matrix Calculation; On-chip Shared Memory 1 引言现在计算机图形处理器（GPU）高速发展，随着图形处理器性能的大幅度提高以及可编程特性的发展，人们逐渐开始不仅仅用图形处理器处理图形渲染类的流水线计算，而更多的让其应用于通用计算。由于图形图像的渲染需要高强度的并行计算，因此流处理器的体系结构就是为计算密集型处理而设计，它具有数量庞大的运算单元、鲜明的存储层次结构，由于总线技术的进步， PCI-E接口的出现，从而可以得到更高的片外带宽，更多的晶体管被用于数据处理而不是数据存储与流控制，而其本身高的本地带宽更适用于满足