非对齐与不规则数据访问硬件支持下SIMD程序高效向量化技术研究.pdfVIP

  • 1
  • 0
  • 约8.49万字
  • 约 20页
  • 2026-01-07 发布于北京
  • 举报

非对齐与不规则数据访问硬件支持下SIMD程序高效向量化技术研究.pdf

非对齐和不规则数据硬件的SIMD程序高效向量化

首尔国立大荣首尔国立大

学首尔冠岳区冠岳路学首尔冠岳区冠岳路

599号599号

chs@dsp.snu.ac.krwysung@snu.ac.kr

表1:使用64位SIMD处理器的MPEG2编中SIMD内存的统计

为分段ALUSIMD(单指令多数据)处理器自量化程序一

直很,不仅因为数据依赖问题,还因为非对齐和不规则函数数字of非对齐次数

数据问题。非对齐或不规则的数据操作会导致许多用对齐非对齐

ME2.67M(20%)10.73M(80%)

于数据对齐的额外周期。此外,这使得高效代码生成变得困

MC0.04M(25%)0.12M(75%)

难,并了自量化。在本文中,我们采用特殊的内存访DCT2.63M(51%)2.46M(48%)

问硬件来提高SIMD处理器的性能;一种是分割线缓冲区,另IDCT0.15M(43%)0.41M(57%)

Quant/IQuant0.07M(33%)0.14M(66%)

一种是打包缓冲区。前者解决了非对齐内存问题,而后者

VLC0.01M(38%)0.02M(62%)

简化了不规则和跨步数据。这些硬件单元的添加不仅需要总计5.73M(29%)13.88M(71%)

对指令集架构进行非常小的修改,而且通过向量化循环并

减少额外周期,显著提高了性能。我们还开发了一种利用这些

特殊硬件单元的自量化编译器。实验结果表明,与传统方1.引言

法相比,所方法使MPEG2编码程序的向量化循环数量SIMD(单指令多数据)处理器架构不仅需要相对简单

增加了50%,总体性能提高了77%。的硬件,而且在执行包含大量数据级并行性的程序(如多媒

体应用)时也非常有效。近年来,采用分段数据路径的

SIMD架构被广泛应用于个人计算和嵌入式处理器中,例如

IntelPentium4、TexasInstrumentsTMS320C64x、

IntelPXA27x和ARMCortex[2][3][12][20]。分段数据路径可

以使用单个处理器指令处理多个对齐的数据元素。然而,数

类别和描述符据元素并不总是以对齐或规则的方式。SIMD处理器中

的复杂数据可以分为非对齐和不规则操作。在非对

文档评论(0)

1亿VIP精品文档

相关文档