- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
                        查看更多
                        
                    
                基于超长指令字循环优化的反量化和反扫描方法.pdf
                    基于超长指令字循环优化的反量化和反扫描方法
肖创柏,欧阳万里,刘 广
(北京工业大学 计算机学院,北京
100022
)
摘 要:超长指令字是一种在
DSP
中广泛使用的架构
.
在混合编码中,反量化和反扫描过程被频繁调用,对其优
化可以提高整个解码过程的速度
.
以
TM1300
为例介绍了
VLIW
结构的特性,研究基于这些特性对程序中耗时多
的循环进行优化以提高效率的方法,并应用这些方法对
MPEG4
的反量化和反扫描进行了优化,优化后所需指令
周期为优化以前的
60% .
关键词:超长指令字;循环优化;反扫描;反量化
中图分类号:
TP 391.141
文献标识码:
A
文章编号:
0254 0037
(
2005
)
04 0374 05
收稿日期:
2004 10 30.
基金项目:北京市教育委员会科技发展基金资助项目(
KM200510005012
);多媒体与智能软件技术重点实验室开放课题基
金资助项目(
KP0702200201
)
.
作者简介:肖创柏(
1962
),男,湖南岳阳人,教授
.
随着支持超长指令字
VLIW
(
very long instruction word
)的
DSP
的广泛应用,关于
VLIW
体系结构研究及
由此提高运行速度的程序和算法研究成为热点[1-10]
.
其中,文献[
1
]对
VLIW
体系结构与超标量
RISC
体系
结构进行了比较,发现
VLIW
体系结构能很好地解决程序中的分支和提高并行性
.
文献[
2
]则对
VLIW
的
微处理器特征及其在视频方面的预测和补偿进行了探讨
.
文献[
3
]在
VLIW
结构中引入硬堆栈,实现了对
多媒体数据的实时处理
.
文献[
4
]通过引入循环数据和控制相关图的概念来对循环进行优化,文献[
5
]对
循环体间的流相关进行研究,提出消除冗余的线性复杂度的方法
.
文献[
6
]基于
VLIW
特性从专门算法出
发,对
DCT
和
IDCT
进行优化
.
1990
年以来,基于
DCT
的主要的视频和图像编码标准都是使用
DPCM
和变换编码相结合的混合编码
方式,像
H.261 / H.263 / H.264
、
JPEG
以及
MPEG1 / 2 / 4
都使用了这种编码方式,在解码过程中,由于反扫描
和反量化耗时多,被调用次数频繁,对其进行优化具有现实意义
.
本文介绍在
TM1300
下基于
VLIW
结构
特性的循环优化方法,对
MPEG4
中的反量化和反扫描进行优化
.
仿真板性能分析工具实验结果表明,优
化后所需指令周期为优化以前的
60% .
功能单元
Slot
分配
1 2 3 4 5
Consant Y Y Y Y Y
Integer ALU Y Y Y Y Y
Load / Store Y Y
DSP ALU Y Y
Shifter Y Y
Branch Y Y Y
Int / Float MUL Y Y
Float ALU Y Y
Float Compare Y
Float sgrt / div Y
图
1 TM1300
功能单元分配
Fig.1 Function unit assignment of TM1300
1
循环优化方法
1.1 VLIW
的特性
支持
VLIW
的
DSP
具有的特性是
1
条指令同时执行
多个操作,每个操作可以看成是实现某个功能(如整数
加、乘,读写内存等)的
RISC
指令
.
实现同一个功能同时
执行的操作数不同,例如
TM1300
把指令中每个操作认
为占据
1
个操作位(
slot
),
1
条指令共有
5
个
slot
,所以
1
条指令最多可以同时执行
5
个操作
.
每一个
slot
可以执
行的操作的功能不同,如图
1
所示,其中
!
行
列有
Y
代
表在
指令位有功能单元
!
,空白代表
指令位没有功能
第
31
卷 第
4
期
2005
年
7
月
北 京 工 业 大 学 学 报
JOURNAL OF BEIJING UNIVERSITY OF TECHNOLOGY
Vol.31 No.4
!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
Jul . 2005
单元
i .
如果一条指令中排不满
5
个操作,就会以空操作(
nop
)形式代表此操作位不进行任何有效操作
.
有
些指令还具有一些其他特性,如读取内存操作以及
MUL
,
IFIR
等操作,在指令周期(
Cycie
)
N
的这种操作,
在指令周期
N + 3
才真正有效;而
Cycie N
的跳转指令在
Cycie N + 3
执行完后才真正执行
.
由于内存操作
容易产生
nop
,并可能造成机器停转
                 原创力文档
原创力文档 
                         
                                    

文档评论(0)