高清视频编码在可重构处理器中的映射实现(二).docx

高清视频编码在可重构处理器中的映射实现(二).docx

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
PAGE 1 PAGE 1 高清视频编码在可重构处理器中的映射实现(二) 相关资料: 高清视频编码在可重构处理器中的映射实现(一) 3.3 环内算法 环内算法主要包括残差、DCT、量化、哈达玛变换、反DCT、反量化、反残差等。本文主要介绍DCT和量化在可重构处理器中的映射,反DCT和反量化映射过程与两者类似,在此不再赘述。 3.3.1 DCT算法映射 整数变换编码主要是将运动补偿后的残差数据从时域变换到频域。H.264标准中采纳的是基于4×4块的整数DCT变换。二维DCT的计算公式如下: 二维DCT 进行了两次相同的矩阵运算,将待处理的像素子块进行转置后和矩阵Cf相乘,运算的结果再与Cf进行运算,即完成DCT 的运算。算法中矩阵运算的映射如图5所示。矩阵C 的每一行与X 的运算用4路运算并行实现,同时,矩阵C 的运算也是用4路并行运算实现的。 图5 DCT算法在ReMAP中的映射 Fig.5 DCT algorithm mapping on ReMAP 以一个宏块为单位,如图5所示,先将16个子块连续送入计算阵列,完成一维DCT运算,再将一维结果送入阵列,完成二维DCT 运算。每周期可完成一个子块的一维DCT运算。完成一个宏块色度和亮度的二维DCT变换一共需要52个周期,阵列资源利用率是66.7%.与TMS320C64x相比,其性能有24.61 倍加速。相比MorphoSys,Remarc等可重构处理器由于实现了更密集的计算资源,且在映射DCT时达到了较好的计算资源利用率,因此,在DCT 算法映射时,其性能也有92%~392%的提升,如表2所示。 表2 DCT算法映射性能对比 Table 2 Performance analysis for DCT algorithm 3.3.2 量化算法映射 量化指在不降低视觉效果的前提下削减图像编码长度,削减图像恢复中不必要或影响很小的信息。 详细量化过程的运算为: 其中,W (i,j)为残差经过整数变换后的结果,floor()为取整函数(舍弃小数部分)。》为右移运算,右移完成整数除以2;sign()为符号函数,表示该数是正还是负;f 为偏移量,它的作用是改善恢复图像的视觉效果,例如,对帧内猜测图像块f 取2qbits/3,对帧间猜测图像块f 取2qbits/6. 本文映射了Z(i,j)的运算。qbits和MF 由RISC计算获得,f 值通过可重构处理器的第9行MAC单元计算获得,并暂存为计算参数。 如图6所示,第7行计算单元完成取的操作,第9行运算单元完成乘加移位操作,即|Z(i,j)|=(|W (i,j)|×MF+f)》qbits;将结果返回第8行运算单元,运行符号同化计算,即sign(Z(i,j))=sign(W (i,j))。由于可重构处理器中只有第9行运算单元可进行乘法和乘累加运算,所以量化算法仅能执行8路并行,每个周期完成8个数据运算。 图6 量化算法在可重构处理器中的映射 Fig.6 QuantifICation mapping on reconfigurable processor 量化算法共用到3行运算单元,其映射性能受限于乘法器数目。实际映射时,初始化量化运算参数需要4个周期,8路并行进行量化计算,由于第9行MAC单元采纳3级流水线设计,可支持连续2个乘累加运算。完成8×8子块的量化运算需要13个周期,加上数据写回时间一共是18个时钟周期。 表3给出8×8量化算法的性能比较,可重构处理器实现量化算法时已达到接近于ASIC的处理性能,较MorphoSys有16%的性能提升。 表3 量化算法映射性能对比 Table 3 Performance analysis for quantification algorithm 3.4 其他算法映射H.264中残差、哈达玛变换、16×16的垂直、水平、DC和平面猜测等算法实现一个宏块处理的性能如表4所示,映射过程较简洁,在此不再赘述。特殊地,H.264编码算法中的去块滤波和熵编码由于并行计算度不高,且多为掌握跳转类程序,这两个算法需在RISC中处理。 表4 H.264各子算法的映射性能列表 Table 4 Performance analysis

文档评论(0)

zhang_8890 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档