基于CUDA点匹配合成算法.docVIP

下载本文档

4
0
约4.16千字
约 9页
2018-08-27 发布于福建
举报
版权申诉

基于CUDA点匹配合成算法.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于CUDA点匹配合成算法

基于CUDA点匹配合成算法　　[摘要]纹理合成在计算机动画制作中具有重要地位。为克服传统串行点匹配纹理合成算法效率低下的缺陷，提出一种基于计算统一设备架构（CUDA）的并行合成算法。通过合理安排CPU和GPU之间的数据传输，用GPU进行繁琐耗时的计算，明显地提高了算法效率。　　[关键词]纹理合成点匹配 CUDA GPU并行计算　　中图分类号：TP393.08 文献标识码：A 文章编号：1009-914X（2014）25-0323-02 　　纹理合成是当前计算机的研究热点之一。该技术在图像编辑、计算机动画、数据高倍压缩、大规模场景的生成等方面具有广泛的应用前景。纹理合成方法可分为基于过程的纹理合成和基于样图的纹理合成两类。而基于样图的纹理合成技术不仅可以克服传统纹理映射存在走样的缺点，而且避免了纹理合成过程中调整参数的繁琐。　　Wei和Levoy提出的纹理合成算法（简称WL算法）是典型的基于样图的纹理合成算法之一，WL算法中L邻域的尺寸对合成质量和合成效果影响很大，一般说来，L邻域越大，效果越好，但是随之带来的计算量会很大，因此，合成时间也会成倍增加。传统的算法都是在CPU中串行执行，效率非常低下，特别是在计算量特别庞大而不需要过多的逻辑控制时，使用CPU串行计算，很难有效利用处理器的全部资源。本文使用一种基于CUDA的纹理合成算法，通过将繁琐的L邻域计算和最匹配像素的搜索转入GPU中并行计算，优化了算法。　　1.基于点匹配的纹理合成算法介绍　　WL纹理合成算法是基于点纹理合成算法的代表，是一种确定性搜索的纹理合成算法。该算法使用像素L邻域的[1]相似度作为合成依据，L邻域只取像素邻域的上半部分，因其形状像字母L，故称为L邻域。在输入纹理中按照扫描线顺序搜索与当前合成像素的L邻域具有最大相似度的像素点来合成纹理。WL算法的具体步骤如下：　　（1）用随机噪声初始化输出图像。　　（2）对于输出图像的每个像素p，按照扫描线顺序计算：　　a.构造输出图像当前像素p的L邻域（如图1中b，c，d）；　　b.在输入纹理中同样按照扫描线顺序搜索与像素p的L邻域具有最大相似度L邻域的像素q（如图1，a）；　　c.将像素q拷贝到像素p。　　（3）重复步骤（2），直到图像合成完毕。　　图1 L邻域查找示意图　　算法中采用Euclid距离来度量邻域之间的相似度。　　（1）　　式中，R，G，B分别为像素p，q的红，绿，蓝三原色通道。N1，N0分别是输入纹理和输出纹理中某一点的L邻域。　　从上面步骤可以看出，WL算法主要耗时在L邻域相似度的计算和L邻域最大相似度像素的搜索上，每合成输出图像的一个像素，都要在输入图像中逐个像素地计算，虽然合成效果较好，但是其计算和搜索过程相当费时。如果能将以上耗时的计算搜索转为并行，相信会对算法效率有很大提高。　　2.CUDA介绍　　2006年NVIDIA推出的G80系列显卡引入了CUDA架构，使得GPU可以解决商业、工业以及科学方面的复杂计算问题。下面对CUDA进行简要介绍：　　2.1 CPU与GPU结构的区别　　传统的CPU由于摩尔定律失效，其计算速度目前已经基本达到顶峰，而GPU则是专为计算密集型、高度并行化的计算而设计的。两者的架构如图2所示：　　CPU GPU 　　图2 cpu（左）和gpu（右）的结构　　GPU的设计增强了数据处理能力，而数据缓存和流控制方面则不及CPU。这使得GPU适用于解决不需要过多精密流控制的大规模并行计算问题。　　2.2 CUDA的线程层次模型和存储器分配　　CUDA采用线程-线程块-线程块网格的线程层次模型。一个线程块网格可以划分为多个线程块，每个线程块包含了一定数量的线程。CUDA通过这种结构来管理线程的执行以及存储器的分配。每个线程有一个私有的本地存储器。每个线程块有一个共享存储器，该存储器对于块内的所有线程都是可见的，并且与块具有相同的生命周期。最后，所有线程都可访问全局存储器。　　2.3 CUDA运行模式　　CUDA定了一种称为内核（kernel）的C语言函数，并且扩展了C语言。在调用此类函数时，它将由N个不同的CUDA线程并行执行N次，这与普通的C语言函数只执行一次方式不同。另外CUDA把CPU称作主机，GPU称作设备，在运行CUDA程序时，串行代码在主机上执行，并行代码即”kernel”在设备上执行。另外，可以通过主机和设备同步函数，使CPU和GPU同时计算，提高程序效率。　　3.基于CUDA的纹理合成　　本部分介绍在CUDA平台上用GPU来计算像素L邻域相似度并寻找最大相似度像素的算法。　　3.1 GPU存储器的分配　　把数据传入GPU，需