- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
作业 你考虑将传感器网络应用在哪些领域能够影响人类未来的生活?你能否设计出一个传感器网络应用系统来改变这个世界。写一个报告,篇幅约为A4纸2页。 写一个报告:对GPU未来发展趋势的展望。你认为未来Intel, AMD, NVIDIA谁的观点正确。未来高性能计算将向哪个方向发展?篇幅约为A4纸3页。 * * * GPU的设计目标与GPU是不同的,CPU的大部分晶体管主要用于构建控制电路和Cache,只有少部分的晶体管完成实际的运算工作;而GPU架构中,其控制电路相对简单,而且对Cache的需求较小,所以大部分晶体管可以组成各类专用电路和多条流水线,使GPU的计算速度有了突破性飞跃,拥有强大的浮点运算能力。 * CPU+GPU编程的本质是将粒子模拟中需要巨大计算量的工作交给GPU多线程执行实现,CPU主要进行调度工作。在GPU内部,数据有6种存放空间,存放方式与存放位置对程序性能影响极大。 基因及蛋白质排序 利用GPGPU加速HMMERScalable Informatics MUMmerGPU:使用GPGPU进行高吞吐量DNA序列比对Schatz等人 * 复杂多相流动分子动力学 分子动力学(molecular dynamics,MD)模拟是认为分子之间作用力遵守牛顿力学的一种科学计算方法,现已广泛应用到生物、医药、材料、能源、机电的等领域中。 中国科学院过程工程研究所多相复杂系统国家重点实验室进行了GPGPU上的分子动力学(MD)模拟。 * UIUC分子动力学程序 UIUC大学NAMD和VMD程序在18个CPU的机群上有100倍的加速。 3个C870的工作站实际达到705Gflops计算能力 不适合的应用 需要复杂数据结构的计算如树,相关矩阵,链表,空间细分结构等,则不适用于使用GPU进行计算。 串行和事务性处理较多的程序 并行规模很小的应用,如只有数个并行线程 需要ms量级实时性的程序 需要重新设计算法和数据结构或者打包处理 GeForce GTX 275 计算模式:Host -----Device(Client-----Server)(CPU-------GPU) 从前的GPU开发环境 Cg:优秀的图形学开发环境,但不适合GPU通用计算开发 ATI stream:硬件上已经有了基础,但只有低层次汇编能够使用所有资源。高层次抽象Brook本质上是基于上一代GPU的,缺乏良好的编程模型 OpenCL:联合制定的标准,抽象层次较低,对硬件直接操作更多,代码需要根据不同硬件优化 CUDA:目前最佳选择。 什么是CUDA? NVIDIA公司于2007年正式发布的CUDA (Compute Unified Device Architecture,计算统一设备架构)是第一种不需要借助图形学API就可以 使用类C语言进行通用计算的开发环境和软件体系。 CUDA 执行模型 重点是将CPU做为终端(Host),而GPU做为服务器(Server)或协处理器(Coprocessor),或者设备(Device),从而让GPU来运行一些能够被高度线程化的程序。 CUDA的基本思想是尽量得开发线程级并行(Thread Level Parallel),这些线程能够在硬件中被动态的调度和执行。 CUDA API CUDA执行模型 调用核程序时CPU调用API将显卡端程序的二进 制代码传到GPU grid运行在SPA上 block运行在SM上 thread运行在SP上 存储器模型 Register Local shared Global Constant Texture Host memory Pinned host memory GPGPU并行编程模式(1/3) 图形API OpenGL 提供针对图形渲染的API 最早由SGI开发、跨平台 Direct3D 一种基于OLE COM的API 依赖于Windows平台的DirectX OpenCL 针对异构系统并行编程计算的API 由Apple提出,收到多家硬件厂商支持(IBM, HP, NVIDIA) 由Khronos组织维护 * * GPGPU并行编程模式(2/3) 通用计算编程接口 STREAM 包含: CAL 指令集 Brook++ 类C语言及编译器 特点: 板载内存——带宽受限 支持汇编方式编程 * * GPGPU并行编程模式(3/3) * * CUDA架构详解 以NVIDIA Tesla C870图形卡为例介绍CUDA架构 CUDA——Compute Unified Device Architecture 峰值: 518Gflops/card 编程模式: CUDA v1.1 编译器: NVCC * * CUDA逻辑结构及内存结构(1/6) 在
文档评论(0)