基于CUDA的行图像处理性能优化.ppt

下载文档

4
0
约2.92千字
约 29页
2018-10-13 发布于江苏
举报
版权申诉
保障服务

基于CUDA的行图像处理性能优化.ppt

1、本文档共29页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

基于CUDA的行图像处理性能优化

答辩人：郭忠明学号基于CUDA的并行图像处理性能优化基于CUDA的并行图像处理性能优化 Contents 研究现状 2 性能优化策略 3 实验结果及性能分析 4 研究背景及工作意义 1 研究背景及工作意义研究背景 1.大规模图像数据的处理、实时图像处理。 2.基于CUDA的大规模并行计算。选题来源 1.优化基于CUDA平台的并行图像处理实现； 2.扩展至基于CUDA平台的通用并行计算。工作意义选题来源于实际工程项目研究现状指令优化内存访问优化解循环优化基于软件架构的优化策略线程过载优化特定硬件体系结构下的优化基于硬件架构的优化策略性能优化策略性能优化策略不同的性能优化策略可以相互结合使用内存访问优化指令及程序流程优化并行度优化数据表示优化性能优化策略内存访问优化性能优化策略内存访问优化共享内存访问优化常量内存访问优化纹理内存访问优化适宜于没有块间数据重叠访问的情况适宜于处理Host端单线程执行具有复杂参数列表核函数的场景适宜应用于图像处理算法的实现性能优化策略指令及程序流程优化尽量使用执行周期数较少的指令。避免使用逻辑分支控制语句。比较简短的循环应当解开。尽量合并、提取公共运算。基本思想提高指令吞吐量、减少Device核函数内运算操作总次数性能优化策略指令及程序流程优化 Compute Capability 1.x Compute Capability 2.0 Compute Capability 2.1 64-bit floating-point add, multiply, multiply-add 8 32 48 64-bit floating-point add, multiply, multiply-add 1 16 4 32-bit integer add, logical operation 8 32 48 32-bit integer shift, compare 8 16 16 32-bit integer multiply, multiply-add, sum of absolute difference Multiple instructions 16 16 32-bit floating-point reciprocal, reciprocal square root 8 Multiple instructions Multiple instructions Type conversions 16 16 16 性能优化策略指令及程序流程优化 1 0 0 0 1 0 0 0 1 使用模板操作时，需要涉及到图像边界区域处理问题性能优化策略指令及程序流程优化方案1：直接依据4个顶点和4条边界的不同情况予以分别处理。优点：算法基本思想简单、易转化成实际代码。缺点：实际算法逻辑复杂、代码量较大、有大量的逻辑分支控制语句。方案2：显示扩展图像边界。优点：处理逻辑归一化、代码简洁。缺点：需要申请释放额外的空间、增加了处理步骤。方案3：隐式扩展图像边界。优点：处理逻辑归一化、代码简洁，不需要存储中间结果图像。缺点：不同的算法需要有不同的返回值模式、增加了大量的逻辑运算。方案4：利用纹理内存的越界自动处理功能。优点：处理逻辑归一化、代码简洁、不需要存储中间结果图像。缺点：处理模式制约于纹理内存提供的寻址模式，欠缺灵活性。区分边界处理显式扩边处理隐扩边处理算法执行平均时间（ms/次） 82.6213 45.7362 37.2112 隐扩边处理纹理内存越界访问机制算法执行平均时间（ms/次） 2.0010 1.6023 性能优化策略并行度优化密集排列稀疏排列横向排列纵向排列性能优化策略并行度优化密集排列时的数据访问性能优化策略并行度优化稀疏排列时的数据访问性能优化策略并行度优化横向排列时的数据访问性能优化策略并行度优化纵向排列时的数据访问性能优化策略数据表示优化 0 0 1 1 0 1 0 1 0 {0，0，1；1，0，1；0，1，0} 普通模板表示 {1，-1；-1，0；1，0；0，1} 稀疏模板表示实验结果与性能分析实验环境硬件环境： CPU：Core i7 2600 显卡：NVIDIA Tesla C1060（4GB显存）软件环境：操作系统：Ubuntu 10.04 x64 Server 显卡驱动：版本号480.17 编译环境：CUDA ToolKit 4.0 算法：图像形态学基本算法：腐蚀、膨胀、开运算、闭运算。基本参数：图像分辨率：1024 × 768 模板分辨率