基于CUDA光线跟踪实现中纹理内存应用研究.docVIP

下载本文档

6
0
约3.72千字
约 8页
2018-08-27 发布于福建
举报
版权申诉

基于CUDA光线跟踪实现中纹理内存应用研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于CUDA光线跟踪实现中纹理内存应用研究

基于CUDA光线跟踪实现中纹理内存应用研究　　摘要:CUDA是由NVIDIA开发的用于通用并行计算的开发平台,可方便地实现并行算法的编程。本文利用光线跟踪算法具有的天然可并行性,采用KD树加速结构,在CUDA上实现光线跟踪的并行算法,经过纹理内存的优化使用后,可达到交互式光线跟踪。　　关键词:CUDA;光线跟踪;纹理内存;优化　　　　1 引言　　　　光线跟踪是一种图像合成技术,利用光路可逆原理,通过跟踪光线,生成图像[1]。因其原理简单、实现方便,能生成各种逼真的图像,得到了广泛的应用。由于需要跟踪每一条从视点发出的光线,因此涉及到大量的光线与三角片求交计算。目前的一些交互式光线跟踪都是基于超级计算机和PC 机集群的。这类系统因为价格昂贵而难以推广。近年来,随着GPU(图像处理单元)在并行计算能力、存储容量和可编程能力方面的发展,使得单PC机实现交互式光线跟踪成为可能[2]。　　　　2 CUDA开发环境[3] 　　　　近年来,GPU正在以大大超过摩尔定律的速度高速发展,其浮点计算性能强劲,灵活性高。如图1所示,GPU专门为计算密集、高度并行的计算而设计,因而更多晶体管被设计专用于数据计算,而不是数据缓存和流控制,极大地提高了计算机图形处理的速度和质量。　　NVIDIA公司针对GPU的通用运算提出了CUDA(Compute Unified Device Architecture,计算统一设备体系结构),可以通过片上的上百个处理器同步协作,从而快速地解决复杂的运算问题。其基本思想是尽量开发线程级并行,这些线程能够在硬件中被动态的调度和执行。所以,GPU只有在计算高度数据并行任务时才能发挥作用。在CUDA编程模型中,CPU作为终端,而GPU作为协处理器或设备,从而让GPU来运行一些能够被高度线程化的程序。在这类任务中,需要处理大量的数据,数据的储存形式类似于规则的网格,对写数据的处理则基本相同。找到算法中的计算并行度后,就能将一部分程序移植到GPU上。运行在GPU上的程序被称为核函数,它们是整个程序中的若干基本的关键数据并行计算步骤。　　　　3 基于CUDA的光线跟踪　　　　3.1 KD树加速结构　　KD树被认为是静态场景的最佳加速结构。本次实现中,KD树的构建在CPU上完成,是一个自顶向下的递归的过程:先输入场景的图元集合及包围盒;然后计算每个三角片的AABB;接着使用SAH方法选择最佳分割平面进行空间分割;最后将图元对象分配给左、右子节点。这个递归过程不断进行,直至达到规定的最大深度值,或者在一个节点中的三角形的数量小于给定的阀值。实现中KD树遍历采用了标准的遍历方法。　　3.2 光线跟踪实现过程及优化　　在光线跟踪中计算光线与三角片求交时,每条光线的运算过程相对独立,具有天然的可并行性。Wald提出[4]:原则上,随着执行首次光线计算的处理器的增加,速度将随着所使用的CPU的数量呈线性增长。因此,可利用GPU上包含多个并行处理器的特性,大幅度提高光线跟踪运算速度。算法实现分为五步:首先生成初始光线并计算光线与场景中物体是否相交;接着判断交点对光源的可见性;然后计算该交点对象素色彩的贡献;最后计算反射光线;如不满足终止条件,继续上述过程。　　在GPU上实现的光线跟踪渲染引擎时,由于需要大量的内存用于存储场景的三角片面空间信息数据、纹理数据和空间加速结构数据,必须使用全局内存。考虑到纹理内存经硬件优化,可实现高速并行访问,且便于实现访问延迟的掩盖,在实现中通过纹理内存的优化应用,大幅提高核函数执行效率,提高接近三倍,如表1所示。　　　　4 纹理内存优化及参数设置　　　　4.1 纹理内存的优化使用　　GPU中有全局内存、常量内存、纹理内存和共享内存。全局内存不会被缓存,访问成本很高。灵活合理地使用内存,可大大提高渲染的性能。　　4.1.1 纹理内存优化　　从纹理存储器而非全局存储器读取数据可带来多方面的性能收益,纹理不受制于存储器访问模式的限制,寻址计算的延迟得到很好的隐藏,且纹理有缓存,能改进执行随机数据访问的应用程序的性能。纹理存储器空间会被缓存,因此纹理拾取仅需在缓存丢失时读取一次设备存储器,否则只需读取纹理缓存即可。纹理缓存已为二维空间位置优化,因此读取相邻纹理地址的同一个线程块的线程将实现最高性能。纹理内存访问以固定的延迟执行流式拾取,且纹理打包的数据可通过一次操作广播给不同的变量。　　纹理可以是线性存储器或CUDA 数组的任意区域。在线性存储器内分配的纹理:①维度仅能为1,②不支持纹理过滤,③仅可使用非归一化整型纹理坐标寻址。　　程序中使用的场景较复杂,数据量很大,因此需要把很多数据放到全局内存空间里,但全局内