网站大量收购闲置独家精品文档,联系QQ:2885784924

基于CUDA的行图像处理性能优化.ppt

  1. 1、本文档共29页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于CUDA的行图像处理性能优化

答辩人:郭忠明 学号基于CUDA的并行图像处理性能优化 基于CUDA的并行图像处理性能优化 Contents 研究现状 2 性能优化策略 3 实验结果及性能分析 4 研究背景及工作意义 1 研究背景及工作意义 研究背景 1.大规模图像数据的处理、实时图像处理。 2.基于CUDA的大规模并行计算。 选题来源 1.优化基于CUDA平台的并行图像处理实现; 2.扩展至基于CUDA平台的通用并行计算。 工作意义 选题来源于实际工程项目 研究现状 指令优化 内存访问优化 解循环优化 基于软件架构的优化策略 线程过载优化 特定硬件体系结构下的优化 基于硬件架构的优化策略 性能优化策略 性能优化策略 不同的性能优化策略 可以相互结合使用 内存访问 优化 指令及程序流程 优化 并行度 优化 数据表示 优化 性能优化策略 内存访问优化 性能优化策略 内存访问优化 共享内存访问优化 常量内存访问优化 纹理内存访问优化 适宜于没有块间数据重叠访问的情况 适宜于处理Host端单线程执行具有复杂参数列表核函数的场景 适宜应用于图像处理算法的实现 性能优化策略 指令及程序流程优化 尽量使用执行周期数较少的指令。 避免使用逻辑分支控制语句。 比较简短的循环应当解开。 尽量合并、提取公共运算。 基本思想 提高指令吞吐量、减少Device核函数内运算操作总次数 性能优化策略 指令及程序流程优化 Compute Capability 1.x Compute Capability 2.0 Compute Capability 2.1 64-bit floating-point add, multiply, multiply-add 8 32 48 64-bit floating-point add, multiply, multiply-add 1 16 4 32-bit integer add, logical operation 8 32 48 32-bit integer shift, compare 8 16 16 32-bit integer multiply, multiply-add, sum of absolute difference Multiple instructions 16 16 32-bit floating-point reciprocal, reciprocal square root 8 Multiple instructions Multiple instructions Type conversions 16 16 16 性能优化策略 指令及程序流程优化 1 0 0 0 1 0 0 0 1 使用模板操作时,需要涉及到图像边界区域处理问题 性能优化策略 指令及程序流程优化 方案1: 直接依据4个顶点和4条边界的不同情况予以分别处理。 优点: 算法基本思想简单、易转化成实际代码。 缺点: 实际算法逻辑复杂、代码量较大、有大量的逻辑分支控制语句。 方案2: 显示扩展图像边界。 优点: 处理逻辑归一化、代码简洁。 缺点: 需要申请释放额外的空间、增加了处理步骤。 方案3: 隐式扩展图像边界。 优点: 处理逻辑归一化、代码简洁,不需要存储中间结果图像。 缺点: 不同的算法需要有不同的返回值模式、增加了大量的逻辑运算。 方案4: 利用纹理内存的越界自动处理功能。 优点: 处理逻辑归一化、代码简洁、不需要存储中间结果图像。 缺点: 处理模式制约于纹理内存提供的寻址模式,欠缺灵活性。 区分边界处理 显式扩边处理 隐扩边处理 算法执行平均时间(ms/次) 82.6213 45.7362 37.2112 隐扩边处理 纹理内存越界访问机制 算法执行平均时间(ms/次) 2.0010 1.6023 性能优化策略 并行度优化 密集排列 稀疏排列 横向排列 纵向排列 性能优化策略 并行度优化 密集排列时的数据访问 性能优化策略 并行度优化 稀疏排列时的数据访问 性能优化策略 并行度优化 横向排列时的数据访问 性能优化策略 并行度优化 纵向排列时的数据访问 性能优化策略 数据表示优化 0 0 1 1 0 1 0 1 0 {0,0,1;1,0,1;0,1,0} 普通模板表示 {1,-1;-1,0;1,0;0,1} 稀疏模板表示 实验结果与性能分析 实验环境 硬件环境: CPU:Core i7 2600 显卡:NVIDIA Tesla C1060(4GB显存) 软件环境: 操作系统:Ubuntu 10.04 x64 Server 显卡驱动:版本号480.17 编译环境:CUDA ToolKit 4.0 算法: 图像形态学基本算法:腐蚀、膨胀、开运算、闭运算。 基本参数: 图像分辨率:1024 × 768 模板分辨率

文档评论(0)

jixujianchi + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档