网站大量收购闲置独家精品文档,联系QQ:2885784924

CUDA显卡编程的架构及研究_GPU与CPU的协同工作教程.docx

CUDA显卡编程的架构及研究_GPU与CPU的协同工作教程.docx

  1. 1、本文档共27页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
CUDA显卡编程的架构及研究_GPU与CPU的协同工作教程

CUDA显卡编程的架构及研究 CUDA显卡编程的架构及研究 CUDA graphics programming framework and research 大连理工大学毕业设计(论文)格式规范 CUDA显卡编程的架构及研究 -  PAGE II - -  PAGE 26 - 摘 要 由于图形处理器(GPU)最近几年的快速发展,基于GPU的通用计算已经成为一个新的研究领域。通过对NVIDIA公司最新的通用计算GPU编程模型-CUDA的研究,阐明了CUDA应用程序的结构和它本身特征,讨论和分析了CUDA编程方法与普通CPU编程的差别,并以H.264数字视频编解码中,以消除宏块边界锯齿为主要目的的去块滤波模块为实例,详细描述了CUDA编程的方法和特点,最后通过与CPU编程实现的去块滤波模块的性能比较,揭示了CUDA在计算能力上的优势,为进一步优化编解码器性能和GPU通用计算提供了新的方法和思路。针对GPU的计算处理能力,提出了用GPU解决高性能计算的问题,??中包括详细描述CUDA编程的方法、优化处理原则等。采用了对比实验,结果表明了CUDA在并行计算上有很强的能力,为GPU的通用计算提供了新的方法和思路。现代GPU拥有强大的计算能力。文中提出了利用GPU解决高性能计算的问题,包括GPU编程的方法、高性能计算问题的划分原则等。实验表明,GPU高性能计算相比多核CPU具有更高的效率。 关键词:GPU、CUDA、并行、通用计算 目 录  TOC \o 1-3 \h \z \u  HYPERLINK \l _Toc405209945 摘 要  PAGEREF _Toc405209945 \h I  HYPERLINK \l _Toc405209946 引 言  PAGEREF _Toc405209946 \h 3  HYPERLINK \l _Toc405209947 1.1?CUDA编程  PAGEREF _Toc405209947 \h 5  HYPERLINK \l _Toc405209948 1.1.1概述:  PAGEREF _Toc405209948 \h 5  HYPERLINK \l _Toc405209949 1.1.2历史  PAGEREF _Toc405209949 \h 5  HYPERLINK \l _Toc405209950 1.2?并行算法设计的基本方法  PAGEREF _Toc405209950 \h 6  HYPERLINK \l _Toc405209951 1.2.1设计方法  PAGEREF _Toc405209951 \h 6  HYPERLINK \l _Toc405209952 1.2.2实践举例  PAGEREF _Toc405209952 \h 7  HYPERLINK \l _Toc405209953 1.3?并行算法性能的度量  PAGEREF _Toc405209953 \h 11  HYPERLINK \l _Toc405209954 1.3.1并行算法分析  PAGEREF _Toc405209954 \h 11  HYPERLINK \l _Toc405209955 1.5?高性能计算利剑之CUDA  PAGEREF _Toc405209955 \h 17  HYPERLINK \l _Toc405209956 2? CUDA实例  PAGEREF _Toc405209956 \h 19  HYPERLINK \l _Toc405209957 总结:  PAGEREF _Toc405209957 \h 25  引 言 计算需求是永无止境的,可以说高性能计算是计算机科学研究中的“日不落”课题。并行计算是其中最有效的手段。作为软件编程人员,设计编写并行算法是最为核心的工作任务。笔者想从3个基本概念:时间重叠、资源重复和资源共享,来让读者初步直观的认识一下并行算法的总体设计目标。 首先,时间重叠是指多个处理过程在时间上相互错开,轮流重叠地使用同一套硬件设备的各个部分。这个概念可从计算复杂度的角度来理解,一个算法的复杂度可表示为空间复杂度和时间复杂度。从算法树的结构来看,通常的串行算法树“深而窄”,因为串行算法的本质是为一维问题设计的。而并行算法的目标则是尽可能减少时间复杂度,通常是通过以空间换时间的方式实现的,即增加空间复杂度。典型的时间重叠就是流水线处理。虽然CUDA平台上单个GPU暂时是不能设计流水线算法,但它也提供了异步访问以及Fermi架构的双kernel调度

文档评论(0)

dajuhyy + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档