- 1、本文档共7页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
AVS标准中整数DCT变换的CUDA并行算法
第2011拳年第11月片期 MMIICcRR微OOCOO计MMPUU算TTEERR机AAPPP应LLIICA用TIONS Vol_N32OVN.o20.1111
AVS标准中整数DCT变换的CUDA并行算法
孟小华 2 刘坚强
(暨南大学计算机科学系 暨南大学天体测量、动力学与空间科学中法联合实验室 广州 510632)
摘要:随着图形处理器 (GPU)的处理能力的不断增强,图形处理器越来越多的运用在计算密集型的数据处理中。AVS标准视
频压缩算法中一些步骤存在典型的并行特性 ,高清、超清视频压缩的串行算法执行时间开销较大 ,难以满足实时编码的需要 ,
因此利用GPU的并行处理能力和CUDA的编程框架对AVS标准中的整数DCT变换算法进行了并行实现。经过实验测试 ,并
行算法与串行算法相比具有较高的加速比。
关键词:图形处理器 AVS CUDA 并行算法 加速比
ParallelAlgorithm ofIntegerDCT intheAVSstandardbasedonCUDA
MENGXiaohua,LIUJianqiang
(DepartmentofComputeScience,JinanUniversity,Guangzhou510632,China,
Sino—FranceJointLaboratoryforAstrometry,DynamicsandSpaceScience,JinanUniversity,Guangzhou,510632,China)
Abstract:WiththegrowthofGPU’Sprocessingcapability,GPU ismoreincreasinglyappliedincalculation — intensivedataprocess
. PartofstepsintheAVSvideocompressionalgorithm standardhaverelativelyhighparallelcharacteristics.itwillconsumemuchtime
toexecuteHD/uhraHDvideocompressionaccordingtoserialalgorithms,whichcannoteasytomeetthereal—timeneeds,usingthe
CUDA parallelprocessingpowerandgraphicshardwareGPU prorgammablility ,hasrealized theparallelalgorithmsofintegerDCT
transform intheAVSstandards.Afterexperimental testingandcompraedwithserialprorgamme ,ithasrelativelyhighspeedup.
Keywords:GPU,AVS,CUDA,praallelalgorithms,speedup
AVS是我国自主制定的具有 自主知识产权的第二代信源编码标准 ¨』,是 《信息技术先进音视频编码》系
列标准的简称,其视频编码标准采用与 H.264类似的技术框架,包括变换、量化、熵编码、帧内预测、帧问预
测、环路滤波等。由于其编码算法复杂度较高,特别是随着高清、超清视频的普及,提高编解码速度成为 目
前要解决的重要问题之一。整数DCT变换在AVS编码中是调用频度高且比较耗时的部分,研究它的快速
实现算法有利于编码器的实时编码实现。文献 ¨提出了一种AVS整数DCT变换和量化的方法,采用的较
低复杂度的4x4整数变换矩阵获得较高的编码效率,但是4x4整数DCT变换的去相关性不足。因此本文采
用了去相关性更强的8x8整数DCT变换,在高清应用中获得更好的压缩性能和视觉效果。文献 提出了 一
种AVS整数DCT变换的快速变换算法并在DSP上实现,采用加法和移位操作代替乘法运算降低计算复杂
度获得了4倍加速比。现在计算机普遍配置了高性能的图形卡,人们已在很多领域尝试利用图形处理器的
计算能力来进行高性能计算。本文研究利用 GPU(GraphicProcessingUnit)的并行处理能力和CUDA(Com·
puteUnifiedDeviceArchitecture)的编程框架对AVS标准中的整数 DCT变换算法进行了并行实现。
本文于201
您可能关注的文档
- 大木山自然保护区红腹锦鸡对冬季生境的选择性.pdf
- (一) 甚麼是五常法 (5S).doc
- --让的哥的姐体面生活--三部门联合创建出租汽车行业和谐劳动关系.pdf
- 0 员工盘点分析表.doc
- 0 部门职能与主要工作.doc
- 02内部审核实施计划.doc
- 03会议签到表 OK.doc
- 03内部质量体系审核首次会议记录 OK.doc
- 041215企管专职行为规范考评表-王V12.doc
- 04总经理审核检查表 OK.doc
- 新高考生物二轮复习讲练测第6讲 遗传的分子基础(检测) (原卷版).docx
- 新高考生物二轮复习讲练测第12讲 生物与环境(检测)(原卷版).docx
- 新高考生物二轮复习讲练测第3讲 酶和ATP(检测)(原卷版).docx
- 新高考生物二轮复习讲练测第9讲 神经调节与体液调节(检测)(原卷版).docx
- 新高考生物二轮复习讲练测第11讲 植物生命活动的调节(讲练)(原卷版).docx
- 新高考生物二轮复习讲练测第8讲 生物的变异、育种与进化(检测)(原卷版).docx
- 新高考生物二轮复习讲练测第5讲 细胞的分裂、分化、衰老和死亡(讲练)(原卷版).docx
- 新高考生物二轮复习讲练测第5讲 细胞的分裂、分化、衰老和死亡(检测)(原卷版).docx
- 新高考生物二轮复习讲练测第12讲 生物与环境(讲练)(原卷版).docx
- 新高考生物二轮复习讲练测第11讲 植物生命活动的调节(检测)(原卷版).docx
文档评论(0)