- 1
- 0
- 约8.49万字
- 约 20页
- 2026-01-07 发布于北京
- 举报
非对齐和不规则数据硬件的SIMD程序高效向量化
首尔国立大荣首尔国立大
学首尔冠岳区冠岳路学首尔冠岳区冠岳路
599号599号
chs@dsp.snu.ac.krwysung@snu.ac.kr
表1:使用64位SIMD处理器的MPEG2编中SIMD内存的统计
为分段ALUSIMD(单指令多数据)处理器自量化程序一
直很,不仅因为数据依赖问题,还因为非对齐和不规则函数数字of非对齐次数
数据问题。非对齐或不规则的数据操作会导致许多用对齐非对齐
ME2.67M(20%)10.73M(80%)
于数据对齐的额外周期。此外,这使得高效代码生成变得困
MC0.04M(25%)0.12M(75%)
难,并了自量化。在本文中,我们采用特殊的内存访DCT2.63M(51%)2.46M(48%)
问硬件来提高SIMD处理器的性能;一种是分割线缓冲区,另IDCT0.15M(43%)0.41M(57%)
Quant/IQuant0.07M(33%)0.14M(66%)
一种是打包缓冲区。前者解决了非对齐内存问题,而后者
VLC0.01M(38%)0.02M(62%)
简化了不规则和跨步数据。这些硬件单元的添加不仅需要总计5.73M(29%)13.88M(71%)
对指令集架构进行非常小的修改,而且通过向量化循环并
减少额外周期,显著提高了性能。我们还开发了一种利用这些
特殊硬件单元的自量化编译器。实验结果表明,与传统方1.引言
法相比,所方法使MPEG2编码程序的向量化循环数量SIMD(单指令多数据)处理器架构不仅需要相对简单
增加了50%,总体性能提高了77%。的硬件,而且在执行包含大量数据级并行性的程序(如多媒
体应用)时也非常有效。近年来,采用分段数据路径的
SIMD架构被广泛应用于个人计算和嵌入式处理器中,例如
IntelPentium4、TexasInstrumentsTMS320C64x、
IntelPXA27x和ARMCortex[2][3][12][20]。分段数据路径可
以使用单个处理器指令处理多个对齐的数据元素。然而,数
类别和描述符据元素并不总是以对齐或规则的方式。SIMD处理器中
的复杂数据可以分为非对齐和不规则操作。在非对
原创力文档

文档评论(0)