面向端侧部署的视觉Transformer轻量化剪枝与加速推理设计.docxVIP

面向端侧部署的视觉Transformer轻量化剪枝与加速推理设计.docx

PAGE2

面向端侧部署的视觉Transformer轻量化剪枝与加速推理设计

摘要

计算摄影与计算机视觉领域中，视觉Transformer模型凭借卓越的长距离依赖建模能力备受瞩目。然而，其庞大的参数量与高昂的计算复杂度严重阻碍了在资源受限的端侧设备上的部署。本课题针对此痛点，设计了面向端侧部署的轻量化剪枝与加速推理框架。

首先，研究并提出基于信息论度量的注意力头冗余度度量机制，精准识别功能重叠的注意力头。其次，设计结构化剪枝策略，剔除冗余头并重组权重，维持模型稠密性以适配硬件。最后，构建算子融合加速推理框架，将多头注意力计算合并为等效矩阵运算，大幅降低端侧推理延迟。

全文按需求分析、总体设计、详细设计、实现与测试的工程递进思路展开。核心创新在于结合信息论度量的细粒度结构化剪枝与面向硬件特性的算子级融合，实现精度与速度的最佳平衡。

第一章绪论

1.1研究背景

近年来，计算摄影与计算机视觉技术飞速发展，视觉Transformer（ViT）凭借自注意力机制逐步取代传统卷积网络，成为图像分类、目标检测等任务的主流架构。

ViT通过全局注意力建模，突破了卷积局部感受野的限制，在多项基准测试中刷新了精度记录。然而，ViT的卓越性能伴随着极高的计算开销。

自注意力机制的复杂度随图像分辨率呈二次方增长，导致模型参数量与内存占用急剧膨胀。在端侧设备上，有限的算力与内存难以支撑原生ViT的实

更多 >