高清视频编码在可重构处理器中的映射实现（二）.docx

下载文档

0
0
约2.2千字
约 5页
2022-06-30 发布于河南
举报
版权申诉
保障服务

高清视频编码在可重构处理器中的映射实现（二）.docx

1、本文档共5页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

PAGE 1 PAGE 1 高清视频编码在可重构处理器中的映射实现（二）相关资料：高清视频编码在可重构处理器中的映射实现（一） 3.3 环内算法环内算法主要包括残差、DCT、量化、哈达玛变换、反DCT、反量化、反残差等。本文主要介绍DCT和量化在可重构处理器中的映射，反DCT和反量化映射过程与两者类似，在此不再赘述。 3.3.1 DCT算法映射整数变换编码主要是将运动补偿后的残差数据从时域变换到频域。H.264标准中采纳的是基于4×4块的整数DCT变换。二维DCT的计算公式如下：二维DCT 进行了两次相同的矩阵运算，将待处理的像素子块进行转置后和矩阵Cf相乘，运算的结果再与Cf进行运算，即完成DCT 的运算。算法中矩阵运算的映射如图5所示。矩阵C 的每一行与X 的运算用4路运算并行实现，同时，矩阵C 的运算也是用4路并行运算实现的。图5 DCT算法在ReMAP中的映射 Fig.5 DCT algorithm mapping on ReMAP 以一个宏块为单位，如图5所示，先将16个子块连续送入计算阵列，完成一维DCT运算，再将一维结果送入阵列，完成二维DCT 运算。每周期可完成一个子块的一维DCT运算。完成一个宏块色度和亮度的二维DCT变换一共需要52个周期，阵列资源利用率是66.7%.与TMS320C64x相比，其性能有24.61 倍加速。相比MorphoSys,Remarc等可重构处理器由于实现了更密集的计算资源，且在映射DCT时达到了较好的计算资源利用率，因此，在DCT 算法映射时，其性能也有92%~392%的提升，如表2所示。表2 DCT算法映射性能对比 Table 2 Performance analysis for DCT algorithm 3.3.2 量化算法映射量化指在不降低视觉效果的前提下削减图像编码长度，削减图像恢复中不必要或影响很小的信息。详细量化过程的运算为：其中，W （i,j）为残差经过整数变换后的结果，floor（）为取整函数（舍弃小数部分）。》为右移运算，右移完成整数除以2;sign（）为符号函数，表示该数是正还是负；f 为偏移量，它的作用是改善恢复图像的视觉效果，例如，对帧内猜测图像块f 取2qbits/3,对帧间猜测图像块f 取2qbits/6. 本文映射了Z（i,j）的运算。qbits和MF 由RISC计算获得，f 值通过可重构处理器的第9行MAC单元计算获得，并暂存为计算参数。如图6所示，第7行计算单元完成取的操作，第9行运算单元完成乘加移位操作，即|Z（i,j）|=（|W （i,j）|×MF+f）》qbits;将结果返回第8行运算单元，运行符号同化计算，即sign（Z（i,j））=sign（W （i,j））。由于可重构处理器中只有第9行运算单元可进行乘法和乘累加运算，所以量化算法仅能执行8路并行，每个周期完成8个数据运算。图6 量化算法在可重构处理器中的映射 Fig.6 QuantifICation mapping on reconfigurable processor 量化算法共用到3行运算单元，其映射性能受限于乘法器数目。实际映射时，初始化量化运算参数需要4个周期，8路并行进行量化计算，由于第9行MAC单元采纳3级流水线设计，可支持连续2个乘累加运算。完成8×8子块的量化运算需要13个周期，加上数据写回时间一共是18个时钟周期。表3给出8×8量化算法的性能比较，可重构处理器实现量化算法时已达到接近于ASIC的处理性能，较MorphoSys有16%的性能提升。表3 量化算法映射性能对比 Table 3 Performance analysis for quantification algorithm 3.4 其他算法映射H.264中残差、哈达玛变换、16×16的垂直、水平、DC和平面猜测等算法实现一个宏块处理的性能如表4所示，映射过程较简洁，在此不再赘述。特殊地，H.264编码算法中的去块滤波和熵编码由于并行计算度不高，且多为掌握跳转类程序，这两个算法需在RISC中处理。表4 H.264各子算法的映射性能列表 Table 4 Performance analysis