中国海洋大学面向多核处理器与并行计算的大规模多媒体处理.docVIP

下载本文档

0
0
约2.86千字
约 4页
2019-07-09 发布于江苏
举报
版权申诉

中国海洋大学面向多核处理器与并行计算的大规模多媒体处理.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

中国海洋大学面向多核处理器和并行计算的大规模多媒体处理课程大纲（理论课程）英文名称CUDA Training Course 【开课单位】计算机科学与技术系【课程模块】工作技能【课程编号】【课程类别】选修【学时数】 32 （理论 32 实践）【学分数】 1 备注：课程模块为公共基础、通识教育、学科基础、专业知识或工作技能；课程类别为必修或选修。一、课程描述本课程大纲根据2011年本科人才培养方案进行修订或制定。（一）教学对象计算机科学与技术专业大学四年级学生（二）教学目标及修读要求 1、教学目标（课程结束后学生在知识、技能和态度三个层面达到的目标）目前，计算正在CPU向CPU与GPU协同处理的方向发展。为了实现这一新型计算模式，NVIDIA发明了CUDA并行计算架构。对应用程序开发商来说，CUDA 架构拥有庞大的用户群。软件开发商、科学家以及研究人员正在各个领域中运用CUDA，其中包括图像与视频处理、计算生物学和化学、流体力学模拟、CT图像再现、地震分析以及光线追踪等等。本门课程的主要目标是使学生通过本课程的学习，了解和掌握CUDA架构和编程模型，能够在GPU上运行典型CUDA并行程序并通过CUDA分析器对程序进行优化，实现对专业基础知识的综合，提升系统设计能力和综合应用能力，培养创新型思维和动手实践能力，开拓专业学术视野，使学生初步具备一定的专业工作技能。 2、修读要求（简要说明课程的性质，与其他专业课程群的关系，学生应具备的基本专业素质和技能等）本课程属于计算机学科的专业技能课程，主要用于培养学生的工作技能，因此学习本课程要求学生必须按照本科培养方案修完了之前所有的专业基础课和先修专业课，具有一定的计算机学科专业知识素质和良好的程序设计能力。（三）先修课程（参照2011版人才培养方案中的课程名称，课程名称要准确）先修课程：“高级程序设计语言”；“计算机系统结构”；“多核处理器设计与并行处理” 二、教学内容（一）第1章 GPU通用计算 1、主要内容：1.1 多核计算的发展 1.2 GPU发展简介 1.3 从GPUPU到CUDA 2、教学要求：（按照掌握、理解、了解三个层次对学生学习提出要求）了解多核计算以及并行计算的基本概念；了解GPU的概念和作用；了解和掌握CUDA原理及其体系结构。（二）第2章 CUDA基础 1、主要内容： 2.1 CUDA编程模型 2.2 CUDA软件体系 2.3 CUDA存储器模型 2.4 CUDA通信机制 2.5 异步并行执行 2.6 CUDA与图形学API互操作 2.7 多设备与设备集群 2、教学要求：（按照掌握、理解、了解三个层次对课程内容提出要求）掌握CUDA编程模型、软件体系、存储器模型及其通信机制；理解异步并行执行机制，了解和掌握CUDA与OPENGL、Direct3D、OPENMP以及集群系统的互操作方法。 3、重点、难点：重点：CUDA编程模型；CUDA软件体系；CUDA存储器模型；CUDA通信机制。难点：CUDA与OPENGL、Direct3D、OPENMP以及集群系统的互操作。（三）第3章 CUDA硬件架构 1、主要内容： 3.1 NVIDIA显卡构造简介 3.2 Tesla图形与计算架构 3.3 Tesla通用计算模型 2、教学要求：了解NVIDIA显卡的硬件体系结构；理解Tesla图形与计算架构；掌握Tesla通用计算模型。 3、重点、难点：重点：Tesla图形与计算架构；Tesla通用计算模型。难点：warp指令的发射与执行；纹理、渲染和存储器流水线。（四）第4章 CUDA程序的优化 1、主要内容： 4.1 CUDA程序优化概述 4.2 测量程序运行时间 4.3 任务划分 4.4 存储器访问优化 4.5 指令流优化 4.6 CUDA profiler的使用 4.7 优化应用举例 2、教学要求：了解CUDA程序优化基本概念；掌握测量并行程序运行时间的方法；理解任务划分的原则；掌握存储器访问和指令流的优化方法；掌握CUDA profiler分析测试工具。掌握矩阵乘法、并行归约以及矩阵转置并行算法并通过CUDA profiler实现调优。 3、重点、难点：重点：测量并行程序运行时间；任务划分原则；存储器访问和指令流优化方法；CUDA profiler分析器；几种典型的并行应用问题难点：矩阵乘法、并行归约、矩阵转置并行算法及其调优