高清视频编码在可重构处理器中的映射实现(一).docx

高清视频编码在可重构处理器中的映射实现(一).docx

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
PAGE 1 PAGE 1 高清视频编码在可重构处理器中的映射实现(一) 1 引 言 当前,高清视频编码应用对处理器的运算力量的要求越来越高。可重构处理器包含多个处理单元,可供应大数据带宽,完成大规模数据并行处理,兼顾应用的敏捷性,可高效地执行密集型计算,渐渐成为高清视频处理领域的讨论热点。 ReMAP是一款针对高清媒体应用的可重构处理器。其原型验证芯片基于SMIC 0.18μmLogic工艺设计,包含4×4个ALU单元,工作主频为150MHz,性能可达2.4GOPS.本文采纳9×8个计算单元阵列规模的动态可重构处理器ReMAP,完成H.264高清视频编码算法的映射,并在可重构处理器的仿真平台ReSim 上进行性能评估。 第2节介绍可重构处理器ReMAP系统及动态流水重构技术,第3节介绍H.264高清编码算法在ReMAP中的映射实现方法,并进行性能评估,对全文进行总结。 2 可重构处理器ReMAP系统概述 2.1 可重构处理器ReMAP系统结构 可重构处理器系统包含一个RISC CPU,一个可重构阵列处理器和一个存储系统,如图1所示。 RISC负责处理算法中掌握段程序,管理存储系统的数据输入和输出,通过配置信息流掌握可重构处理器的初始化、程序和数据加载以及任务的启停操作。 可重构处理器在RISC的掌握下协同操作,采纳多个处理单元完成算法中计算量大、并行度高的程序段,RISC负责对可重构处理器进行配置和搬运数据。存储系统包含一个帧缓存器和DMA.DMA用来与系统外存储进行数据交互,帧缓存器用来存储数据(图像帧);地址产生器AGU 组织帧缓存器中的数据以肯定的挨次送入可重构处理器中,再将处理完毕的数据以肯定挨次暂存至帧缓存器内。 图1 ReMAP系统结构 Fig.1 The system architecture of ReMAP 整个系统工作流程如下:可重构处理器完成初始化,RISC配置存储系统,将算法执行所需要的数据和程序至可重构处理器中,然后发出掌握命令开头数据运算。计算完成后,可重构处理器向RISC发送反馈信号,RISC配置AGU 将数据从帧缓存器中取出,并配置DMA 发送至片外总线上。 RISC和可重构处理器可并行执行程序。每算法运算需完成配置流程,当多个子算法进行映射时,依据数据及程序更新的需要可重复循环以上配置过程。 2.2 动态流水重构 大多数状况下,可重构处理器中运算单元数目有限,运行多个子算法或大型任务处理时,每个运算单元需分时配置不同的功能以协作算法实现。因此,本文可重构处理器采纳动态流水重构技术实现不同算法在处理器中的映射。假设可重构处理器拥有4个运算单元(PE0~PE3),需处理6个子任务。 rei表示运算单元为任务i进行功能重构,exi表示正在执行任务i的功能运算。如图2所示,将6个子任务周期交替加载到硬件中:每一个运行周期中,可重构处理器只处理3个子任务;每一个运算单元仅采纳3周期执行运算,1周期进行功能重构。这种方法虽然运算效率有所降低,但通过分时复用各运算单元,降低了算法对运算单元阵列规模的需求,提高了硬件资源的利用率。 图2 动态流水重构 Fig.2 Dynamic pipelined reconfiguration 3 高清视频编码在可重构处理器中的映射实现 H.264是当前主流的高清视频编码算法,分为视频编码层(VCL)和网络提取层(NAL)。本文主要针对需要大规模计算量的视频编码层中图像处理任务的映射实现。整个编码算法划分成4级流水处理,分别为整数运动估量、小数运动估量、环内算法、熵编码等。通过动态可重构,在不同时刻转变可重构处理器执行功能,采纳处理单元时分复用的工作模式,实现算法在硬件中的虚拟流水线,达到多个子算法复用映射的效果。 本文中,高清编码算法在可重构处理器仿真平台ReSim[6]上进行映射。ReSim包含图形化的调试界面,可显示运算单元间的互连状况、每个周期运算单元执行的配置信息以及各传输路径的数据传递状况,支持各运算单元程序运行的单步调试。 本文中映射的可重构处理器对象包含8×9的运算单元阵列,其中,8×8的运算单元采纳通用计算单元结构,可完成加减法、移位等简洁操作,也可实现截取、转变精度、取等复合操作;第9行运算单元为乘法累加器,可实现大数乘法,乘法运算需要2周期,MAC运算需要3周期完成。 3.1 整数运动估量 本文中整数运动估量采纳块匹配算法,分为计算

文档评论(0)

zhang_8890 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档