非对齐与不规则数据访问硬件支持下SIMD程序高效向量化技术研究.pdfVIP

非对齐与不规则数据访问硬件支持下SIMD程序高效向量化技术研究.pdf

非对齐和不规则数据硬件的SIMD程序高效向量化

首尔国立大荣首尔国立大

学首尔冠岳区冠岳路学首尔冠岳区冠岳路

599号599号

chs@dsp.snu.ac.krwysung@snu.ac.kr

表1：使用64位SIMD处理器的MPEG2编中SIMD内存的统计

为分段ALUSIMD（单指令多数据）处理器自量化程序一

直很，不仅因为数据依赖问题，还因为非对齐和不规则函数数字of非对齐次数

数据问题。非对齐或不规则的数据操作会导致许多用对齐非对齐

ME2.67M(20%)10.73M(80%)

于数据对齐的额外周期。此外，这使得高效代码生成变得困

MC0.04M(25%)0.12M(75%)

难，并了自量化。在本文中，我们采用特殊的内存访DCT2.63M(51%)2.46M(48%)

问硬件来提高SIMD处理器的性能；一种是分割线缓冲区，另IDCT0.15M(43%)0.41M(57%)

Quant/IQuant0.07M(33%)0.14M(66%)

一种是打包缓冲区。前者解决了非对齐内存问题，而后者

VLC0.01M(38%)0.02M(62%)

简化了不规则和跨步数据。这些硬件单元的添加不仅需要总计5.73M(29%)13.88M(71%)

对指令集架构进行非常小的修改，而且通过向量化循环并

减少额外周期，显著提高了性能。我们还开发了一种利用这些

特殊硬件单元的自量化编译器。实验结果表明，与传统方1.引言

法相比，所方法使MPEG2编码程序的向量化循环数量SIMD（单指令多数据）处理器架构不仅需要相对简单

增加了50%，总体性能提高了77%。的硬件，而且在执行包含大量数据级并行性的程序（如多媒

体应用）时也非常有效。近年来，采用分段数据路径的

SIMD架构被广泛应用于个人计算和嵌入式处理器中，例如

IntelPentium4、TexasInstrumentsTMS320C64x、

IntelPXA27x和ARMCortex[2][3][12][20]。分段数据路径可

以使用单个处理器指令处理多个对齐的数据元素。然而，数

类别和描述符据元素并不总是以对齐或规则的方式。SIMD处理器中